选择哪种粒度来进行数据库表分区？

发布于 2024-09-17 21:02:04 字数 829 浏览 15 评论 0原文

我在MySQL数据库中有一个2000万条记录的表。 SELECT 的工作速度非常快，因为我已经设置了良好的索引，但是 INSERT 和 UPDATE 操作变得非常慢。数据库是重负载下 Web 应用程序的后端。 INSERT 和 UPDATE 确实很慢，因为该表上有大约 5 个索引，并且索引大小现在约为 1GB - 我想这需要很多时间来计算。

为了解决这个问题，我决定对表进行分区。我运行 MySQL 4，并且无法升级（无法直接控制服务器），因此我将进行手动分区 - 为每个部分创建一个单独的表。

该数据集由大约18000个不同的逻辑切片组成，可以完全单独查询。因此，我可以创建 18000 个名为（maindata1、maindata2 等）的表。但是，我不确定这是最佳方法吗？除了每当我想手动执行某些操作时我都必须浏览管理工具中的 18000 个项目这一显而易见的事实之外，我还担心文件系统性能。文件系统是ext3。我不确定在包含 36000 个文件（有数据文件和索引文件）的目录中定位文件的速度有多快。

如果这是一个问题，我可以将一些数据片连接到同一个表中。例如：maindata10、maindata20 等，其中 maindata10 将包含切片 1、2、3...10。如果我参加 10 人的“团体”，我只会有 1800 张桌子。如果我20人一组，我会得到900张桌子。

我想知道这个分组的最佳大小是多少，即目录中的文件数与表大小？

编辑：我还想知道使用多个单独的数据库将文件分组在一起是否是一个好主意。因此，即使我有 18000 个表，我也可以将它们分组为 30 个数据库，每个数据库有 600 个表。看起来这样管理起来会容易得多。我不知道拥有多个数据库是否会增加或减少性能或内存占用（尽管它会使备份和恢复变得复杂）

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小兔几 2024-09-24 21:02:04

您可以遵循一些策略来提高性能。我认为“分区”是指“具有相同列布局但数据内容不同的表版本”。

如果可能的话，获取一台运行 mySQL 5 的服务器。它在这方面更快更好，足以让您升级后不会出现问题。

你用的是InnoDB吗？如果是的话，可以切换到myISAM吗？（如果您需要严格的事务完整性，您可能无法切换）。

对于分区，您可能会尝试找出哪种数据切片组合将为您提供大致相等大小的分区（按行数）。如果我是你，我会选择不超过 20 个分区，除非你能向自己证明你需要这样做。

如果只有少数数据片正在主动更新（例如，如果它们是“本月的数据”和“上个月的数据”），我可能会考虑将它们分成更小的片。例如，您可能有“本周的数据” ”、“上周”和“前一周”在它们自己的分区中。然后，当您的分区冷却下来时，复制它们的数据并将它们组合成更大的组，例如“前一个季度”。这样做的缺点是，它会需要运行周日晚上的例行维护作业，但它的优点是大多数或所有更新仅发生在表的一小部分上。

回复收藏 0 原文