开源数据库的行数上限？

发布于 2024-07-27 16:15:11 字数 387 浏览 7 评论 0原文

我有一个项目，正在对大型数据库进行数据挖掘。我目前将所有数据存储在文本文件中，我试图了解存储数据关系数据库的成本和好处。分数看起来像这样：

CREATE TABLE data (
    source1 CHAR(5),
    source2 CHAR(5),
    idx11   INT,
    idx12   INT,
    idx21   INT,
    idx22   INT,
    point1  FLOAT,
    point2  FLOAT
);

在合理的表现下，我可以获得多少这样的分数？我目前拥有约 1.5 亿个数据点，可能不会超过 3 亿个。假设我使用的是带有 4 个双核 2ghz Xeon CPU 和 8GB RAM 的盒子。

原文

I have a project in which I'm doing data mining a large database. I currently store all of the data in text files, I'm trying to understand the costs and benefits of storing the data relational database instead. The points look like this:

CREATE TABLE data (
    source1 CHAR(5),
    source2 CHAR(5),
    idx11   INT,
    idx12   INT,
    idx21   INT,
    idx22   INT,
    point1  FLOAT,
    point2  FLOAT
);

How many points like this can I have with reasonable performance? I currently have ~150 million data points, and I probably won't have more than 300 million. Assume that I am using a box with 4 dual-core 2ghz Xeon CPUs and 8GB of RAM.

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

再可℃爱ぅ一点好了 2024-08-03 16:15:11

PostgreSQL 应该能够充分容纳您的数据——每个表最多 32 TB，等等如果我理解正确的话，您当前谈论的是 5 GB，最大 10 GB（大约 36 字节/行，最多 3 亿行），因此几乎任何数据库实际上都应该能够轻松容纳您。

回复收藏 0 原文

つ低調成傷 2024-08-03 16:15:11

仅供参考：Postgres 在多处理器/重叠请求方面比 MySQL 具有更好的扩展性，来自我几个月前阅读的评论（抱歉，没有链接）。

从你的个人资料来看，我认为这是某种生物特征识别（密码子序列、酶与蛋白质氨基酸序列或类似的）问题。如果你打算用并发请求来解决这个问题，我会选择 Postgres。

OTOH，如果数据要加载一次，然后由单个线程扫描，也许处于“不需要 ACID”模式的 MySQL 将是最佳匹配。

在选择“最佳”堆栈之前，您需要针对访问用例做好一些计划。

回复收藏 0 原文

岛徒 2024-08-03 16:15:11

MySQL 完全能够满足您的需求以及 Alex 对 PostgreSQL 的建议。合理的性能应该不难实现，但如果表将被频繁访问并具有大量 DML，您将需要了解有关最终选择的数据库使用的锁定的更多信息。

我相信 PostgreSQL 可以立即使用行级锁定，而 MySQL 将取决于您选择的存储引擎。 MyISAM 仅在表级别锁定，因此并发性会受到影响，但 InnoDB for MySQL 等存储引擎可以并且将会使用行级锁定来提高吞吐量。我的建议是从 MyISAM 开始，仅当您发现需要行级锁定时才转向 InnoDB。 MyISAM 在大多数情况下都能很好地工作，并且非常轻量。我使用 MyISAM 在 MySQL 中拥有超过 10 亿行的表，并且通过良好的索引和分区，您可以获得出色的性能。您可以阅读有关 MySQL 中存储引擎的更多信息：
MySQL 存储引擎以及关于表分区的信息表分区。这是一篇关于在表上实践分区的文章1.13 亿行，您可能会发现它们也很有用。

我认为将数据存储在关系数据库中的好处远远超过成本。一旦您的数据进入数据库，您就可以做很多事情。时间点恢复，确保数据完整性、更细粒度的安全访问、数据分区、通过通用语言对其他应用程序的可用性。（SQL）等等等等。

祝你的项目好运。

回复收藏 0 原文

~没有更多了~