当前位置：文江博客话题详情

大数据量的数据库选择？

发布于 2024-07-14 23:44:25 字数 432 浏览 12 评论 0原文

我即将开始一个新项目，该项目应该有一个相当大的数据库。

表的数量不会很大（<15），大部分数据（99%）将包含在一张大表中，几乎是插入/只读（无更新）。

该表中的估计数据量将以每天 500.000 条记录的速度增长，我们应该保留其中至少1 年以便能够进行各种报告。

需要有（只读）复制数据库作为备份/故障转移，并且可能用于在高峰时间卸载报告。

我没有使用大型数据库的第一手经验，因此我询问拥有哪种数据库的人在这种情况下是最佳选择。我知道 Oracle 是安全的选择，但如果有人有使用类似设置的 Postgresql 或 Mysql 的经验，我会更感兴趣。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

哑 2024-07-21 23:44:25

我在每天都会看到 100K-2M 新行的环境中使用 PostgreSQL，其中大部分添加到单个表中。然而，这些行往往会被缩减为样本，然后在几天内被删除，因此我无法谈论超过 1 亿行的长期性能。

我发现插入性能相当合理，特别是如果您使用批量复制。查询性能很好，尽管规划器所做的选择有时让我感到困惑；特别是在进行 JOIN / EXISTS 时。我们的数据库需要定期维护（VACUUM/ANALYZE）以保持其平稳运行。我可以通过更仔细地优化 autovacuum 和其他设置来避免其中的一些问题，如果您不执行多次删除，那么这并不是什么大问题。总体而言，我认为在某些方面配置和维护比应有的更加困难。

我没有使用过Oracle，MySQL仅适用于小数据集，所以我无法比较性能。但 PostgreSQL 对于大型数据集工作很好。

回复收藏 0 原文

无力看清 2024-07-21 23:44:25

您是否有“数据仓库工具包"？

建议执行以下操作。

将事实（可测量的、数字的）值与限定或组织这些事实的维度分开。一张大桌子并不是最好的主意。它是一个主导设计的事实表，加上一些小维度表，允许对事实进行“切片和切块”。
将事实保存在简单的平面文件中，直到您想要进行 SQL 样式的报告为止。不要创建和备份数据库。创建和备份文件；仅为必须从 SQL 执行的报告加载数据库。
在可能的情况下创建摘要或额外的数据集市以进行分析。在某些情况下，您可能需要将整个内容加载到数据库中。如果您的文件反映了您的表设计，则所有数据库都具有批量加载器工具，可以从文件中填充 SQL 表并为其建立索引。