当前位置：文江博客话题详情

返回大型结果集对 Lucene 性能的影响

发布于 2025-01-02 21:51:09 字数 155 浏览 4 评论 0原文

有谁知道让 Lucene（或 Solr）返回非常长的结果集而不是通常的“前 10 个”对性能的影响。我们希望返回用户搜索的所有结果（可能是大约 100.000 个文档），然后在返回实际结果之前对返回的文档 ID 进行后处理。

我们当前的索引包含大约 10-2000 万份文档。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

屋檐 2025-01-09 21:51:09

正如斯普拉夫所说，任何形式问题的答案都是“X 足够快吗？”是：“这取决于。”

我会担心：

如果这些文档很大，特别是如果您存储了要检索的字段，您将丢弃缓存。
由于#1，您将拥有大量磁盘 IO，这非常慢。
Lucene 的性能随着返回文档的数量而增长。因此，即使忽略诸如“磁盘比 RAM 慢”之类的实际考虑，它也会更慢。

我不知道你在做什么，但它可能可以通过自定义评分算法来完成。

当然，仅仅因为搜索所有文档会变慢，并不意味着它会太慢而无法使用。一些分面实现本质上确实获得了所有匹配的文档，并且这些对于许多人来说都足够有效。

回复收藏 0 原文

浴红衣 2025-01-09 21:51:09

我能够在 2.5 秒内返回 100,000 行，并索引了 2700 万个文档（每个文档有 1k 字节，包含大约 600B 的文本字段）。硬件并不普通，它有 128 GB 的 RAM。 Solr 的内存使用情况如下：Res 为 50GB Virt 为 106GB。

在处理 8000 万个文档后，我开始发现性能下降。目前正在研究如何将硬件与问题相匹配。希望对您有帮助。

回复收藏 0 原文

~没有更多了~

关于作者

寄居人

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

返回大型结果集对 Lucene 性能的影响

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

返回大型结果集对 Lucene 性能的影响

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。