当前位置：文江博客话题详情

Lucene 搜索花费太长时间

发布于 2024-09-04 07:07:05 字数 373 浏览 4 评论 0原文

我正在（当前）70Gig 索引上使用 Lucene.net (2.9.2.2)。我可以进行相当复杂的搜索，并在 1 ~ 2 秒内获取所有文档 ID。但要实际加载所有命中（在我的测试查询中大约有 70 万个）需要 5 分钟以上。

我们没有使用 lucene 作为 UI，这是一个进程之间的数据存储，我们有数亿个预缓存的数据元素，我正在处理的部分从每个找到的文档中导出一些特定的字段。（因此，分页不会进行，因为这是进程之间的导出）。

我的问题是获取搜索结果中所有文档的最佳方法是什么？目前我正在使用一个自定义收集器，它对文档进行获取（使用 MapFieldSelector）作为其收集。我还尝试在收集器完成后迭代列表。但那更糟糕。

我对想法持开放态度:-)。

提前致谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

燃情 2024-09-11 07:07:05

您需要搜索哪些字段？您需要存储哪些字段？
Lucene.net 可能不是存储和检索实际文档文本的最有效方法。
您的场景建议不存储任何内容，对所需字段建立索引并返回文档 ID 列表。文档本身可以存储在辅助数据库中。

回复收藏 0 原文

云淡风轻 2024-09-11 07:07:05

嗯，鉴于您在“获取”代码移至收集器之外时发现了问题，听起来您的问题与 I/O 相关。

考虑到索引的大小，我几乎不敢问这个问题，但是您是否尝试过：

优化索引
对硬盘进行碎片整理

如果是这样，对文档检索率是否有明显影响？顺便说一句，如果我的数学计算正确的话，我每秒检索 2333 个项目...

另外，对于您正在检索的字段子集，它们中的任何一个都适合压缩吗？或者您已经尝试过压缩？

顺便问一句，70万项在你们的指数中所占的比例是多少？了解 I/O 吞吐量会很有趣。您可能可以计算出您的机器/硬盘驱动器组合的最大理论数据速率，并查看是否已经接近极限。

回复收藏 0 原文

~没有更多了~

关于作者

↘紸啶

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

Lucene 搜索花费太长时间

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

初遇

听闻余生

Z_dy

左岸枫

1848719402

婷

友情链接

Lucene 搜索花费太长时间

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

初遇

听闻余生

Z_dy

左岸枫

1848719402

婷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。