当前位置：文江博客话题详情

大量相同值的索引/性能策略

发布于 2024-10-11 13:11:41 字数 629 浏览 1 评论 0原文

基本信息：这是 OpenStreetMap 数据索引过程的上下文。为了简化问题：核心信息分为3个主要类型，值为“W”、“R”、“N”（VARCHAR(1)）。

该表大约有约 75M 行，所有带有“W”的列组成约 42M 行。现有索引与此问题无关。

现在问题本身：数据的索引是通过一个过程完成的。在此过程中，有一些循环执行以下操作：

[...] SELECT * FROM table WHERE the_key = "W"; [...]

结果再次循环，上面的查询本身也在循环中。这需要花费大量时间并大大减慢该过程。索引 the_key 显然是无用的，因为索引可能使用的所有值都是相同的（“W”）。脚本本身的运行速度还可以，只是 SELECT 需要很长时间。

我是否

需要创建一种“特殊”类型的索引来考虑这一点并使 SELECT 更快？如果有，是哪一个？
需要调整一些服务器参数（它们已经调整过，并且它们提供的结果似乎不错。如果需要，我可以发布它们）？
必须适应速度并简单地获得更多硬件来获得更多功能（蒂姆·泰勒咕噜咕噜咕噜咕噜）？

上述几点的任何替代方案（除了重写或不使用它）？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

固执像三岁 2024-10-18 13:11:41

如果您将 work_mem 设置得足够高以启用位图索引扫描，则此查询可以使用索引。然而，优化器很可能仍然不会选择使用它。总而言之，没有太多可以优化的地方。看起来周围的循环代码需要改进。

回复收藏 0 原文

可是我不能没有你 2024-10-18 13:11:41

首先你说：

该表大约有大约 75M
行，所有列由“W”组成
约 4200 万行。

那你说你

SELECT * FROM table WHERE the_key = "W";

循环执行几次并期望它执行？这是不可能的 - 没有索引会加速这个查询 - 它必须返回 42M 行 - 超过一半。如果您拒绝重写此索引过程以避免多次查询，那么它就值得 The Daily WTF 了。

First you say:

The table has somewhere around ~75M
rows, all columns with "W" make up
~42M rows.

Then you say that you do

SELECT * FROM table WHERE the_key = "W";

several times in a loop and expect it to perform? It is impossible - no indexing would speed up this query - it has to return 42M rows - more than half. If you refuse to rewrite this indexing procedure to avoid querying this more than once then it is just The Daily WTF worthy.

回复收藏 0 原文

~没有更多了~