在 Postgres 中加速缓慢的 SELECT DISTINCT 查询的解决方案

发布于 2024-11-19 06:10:46 字数 436 浏览 4 评论 0原文

该查询基本上是：

SELECT DISTINCT "my_table"."foo" from "my_table" WHERE...

假装我 100% 确定查询的 DISTINCT 部分是其运行缓慢的原因，我省略了查询的其余部分以避免混淆，因为它是我主要关心的是不同部分的缓慢（不同总是缓慢的根源）。

该表有 250 万行数据。此处未列出的目的需要 DISTINCT （因为我不想返回修改后的查询，而只想返回有关使不同查询在 上运行得更快的一般信息>DBMS 级别，如果可能）。

如何在不更改 SQL 的情况下使 DISTINCT 运行得更快（特别是使用 Postgres 9）（即，我无法更改传入的 SQL，但可以在数据库级别优化某些内容）？

原文

The query is basically:

SELECT DISTINCT "my_table"."foo" from "my_table" WHERE...

Pretending that I'm 100% certain the DISTINCT portion of the query is the reason it runs slowly, I've omitted the rest of the query to avoid confusion, since it is the distinct portion's slowness that I'm primarily concerned with (distinct is always a source of slowness).

The table in question has 2.5 million rows of data. The DISTINCT is needed for purposes not listed here (because I don't want back a modified query, but rather just general information about making distinct queries run faster at the DBMS level, if possible).

How can I make DISTINCT run quicker (using Postgres 9, specifically) without altering the SQL (ie, I can't alter this SQL coming in, but have access to optimize something at the DB level)?

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

稀香 2024-11-26 06:10:46

通常，您可以通过使用 group by 来解决 distinct 问题，从而使此类查询运行得更快：

select my_table.foo 
from my_table 
where [whatever where conditions you want]
group by foo;

Oftentimes, you can make such queries run faster by working around the distinct by using a group by instead:

select my_table.foo 
from my_table 
where [whatever where conditions you want]
group by foo;

回复收藏 0 原文

陌上青苔 2024-11-26 06:10:46

您的 DISTINCT 导致它对输出行进行排序以查找重复项。如果您在查询选择的列上放置索引，数据库可能能够按索引顺序读出它们并保存排序步骤。很大程度上取决于查询的细节和所涉及的表——你说的“知道问题出在 DISTINCT”确实限制了可用答案的范围。

回复收藏 0 原文

贵在坚持 2024-11-26 06:10:46

您可以尝试增加 work_mem 设置，具体取决于数据集的大小，这可能会导致将查询计划切换为哈希聚合，这通常更快。

但在全球范围内将其设置得太高之前，请先阅读它。您可以轻松地炸毁您的服务器，因为 max_connections 设置充当该数字的乘数。

这意味着，如果您设置 work_mem = 128MB 并设置 max_connections = 100（默认值），则您应该拥有超过 12.8GB 的 RAM。您实际上是在告诉服务器它可以使用这么多内存来执行查询（甚至不考虑 Postgres 或其他方式使用的任何其他内存）。

回复收藏 0 原文

~没有更多了~

关于作者

安人多梦

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

在 Postgres 中加速缓慢的 SELECT DISTINCT 查询的解决方案

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

著墨染雨君画夕

屋檐

最后的乘客

眼前雾蒙蒙

kidking

kill136

友情链接

在 Postgres 中加速缓慢的 SELECT DISTINCT 查询的解决方案

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

著墨染雨君画夕

屋檐

最后的乘客

眼前雾蒙蒙

kidking

kill136

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。