当前位置：文江博客话题详情

Postgres 中多少个表分区算太多？

发布于 2024-11-09 11:32:20 字数 315 浏览 7 评论 0原文

我正在对一个包含时态数据的非常大的表进行分区，并考虑应该以什么粒度进行分区。 Postgres 分区文档声称“可能存在大量分区显着增加查询计划时间”，并建议将分区与“最多一百个”分区一起使用。

假设我的表保存了 10 年的数据，如果我按周分区，最终会得到超过 500 个分区。在排除这种可能性之前，我想更好地了解分区数量对查询计划时间的影响。有没有人对此进行过基准测试，或者有人了解其内部工作原理吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

归途 2024-11-16 11:32:20

查询规划器必须对查询中使用的表的每个分区的约束信息进行线性搜索，以找出实际涉及的分区——那些可以包含所请求的数据所需的行的分区。当您连接更多表时，规划器考虑的查询计划数量呈指数增长。因此，线性搜索花费足够多的时间而造成麻烦的确切位置实际上取决于查询的复杂性。加入越多，你受到的打击就越严重。 “多达一百”的数字来自于注意到即使在该点附近的更简单的查询上，查询计划时间加起来也是一个不小的时间量。特别是在 Web 应用程序中，响应时间的延迟很重要，这是一个问题；因此发出警告。

你能支持500吗？当然。但是，您将为优化器考虑的涉及该表的每个查询计划搜索 500 个检查约束中的每一个。如果您不关心查询计划时间，那么您可能不在乎。但大多数站点最终都不喜欢在具有如此多分区的查询规划上花费的时间比例，这就是为什么每月分区成为大多数数据集标准的原因之一。您可以轻松存储 10 年的数据，每月进行分区，然后再开始跨越规划开销开始明显的地方。

回复收藏 0 原文

海螺姑娘 2024-11-16 11:32:20

“大量分区可能会大大增加查询规划时间”，并建议使用“最多一百个”分区进行分区。

因为每个额外的分区通常都会与检查约束相关联，这将导致规划器想知道需要查询哪些分区。在最好的情况下，规划器会识别出您只访问单个分区，并完全摆脱 append 步骤。

就行数而言，正如 DNS 和 Seth 所指出的，您的里程将随硬件而变化。不过，一般来说，查询 1M 行表和 10M 行表之间没有显着差异 - 特别是如果您的硬盘驱动器允许快速随机访问并且使用以下命令进行集群（请参阅cluster 语句）：您最常点击的索引。

回复收藏 0 原文

撩人痒 2024-11-16 11:32:20

每个表分区占用文件系统上的一个索引节点。 “非常大”是一个相对术语，取决于您选择的文件系统的性能特征。如果您想要明确的性能基准，您可能可以从您选择的操作系统和文件系统中查看邮件系统的各种性能基准。一般来说，除非您进入数万到数十万的表空间（使用 dirhash 将会获胜）。另请注意，同样的限制适用于 PostgreSQL 中的数据库、表或任何其他文件系统支持的数据库对象。

回复收藏 0 原文