[Lucene]IndexReader/Searcher 的开销是多少

发布于 2024-12-12 03:42:24 字数 482 浏览 0 评论 0原文

大多数 Lucene 文档都建议保留 indexReader 的单个实例并重用它，因为打开新 Reader 会产生开销。

然而，我发现很难看出这种开销的基础是什么以及影响它的因素。

与此相关的是打开 IndexReader 实际上会导致多少开销？

这个问题的背景是：我们当前运行一个集群 tomcat 堆栈，我们在其中从 ServletContainer 执行全文。这些搜索是在每个客户端的单独 Lucene 索引上完成的，因为每个客户端仅搜索自己的数据。每个索引都包含数千到（当前）大约 100,000 个文档。

由于集群化的 tomcat 节点，任何客户端都可以连接到任何 tomcat 节点。因此，保持 IndexReader 打开实际上意味着在每个 tomcat 节点上保持几千个 indexReader 打开。这似乎是一个坏主意，但不断重新开放似乎也不是一个好主意。

虽然我可以在不需要的情况下稍微改变我们部署 Lucene 的方式，但我宁愿不这样做。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

拔了角的鹿 2024-12-19 03:42:24

通常，字段缓存是 Lucene 预热最慢的部分，尽管过滤器和段指针等其他内容也有贡献。缓存中保存的具体数量取决于您的使用情况，尤其是存储多少数据（而不是仅建立索引）之类的内容。

您可以使用适合您环境的任何内存使用情况调查工具来查看 Lucene 本身为您的应用程序占用了多少内存，但请记住，“预热成本”还指操作系统和文件系统保持打开状态的各种缓存可能不会出现在 top 或您使用的任何内容中。

你是对的，拥有数千个索引并不是一种常见的做法。标准建议是让它们共享一个索引并使用过滤器来确保返回适当的结果。

由于您对性能感兴趣，因此您应该记住，服务器上有数千个索引将导致数千个文件散布在整个磁盘上，这将导致大量的寻道时间，而如果您只有一个索引，则不会发生这种情况大指数。根据您的要求，这可能是也可能不是问题。

附带说明：听起来您可能正在使用网络文件系统，这对 Lucene 的性能影响很大。

回复收藏 0 原文

~没有更多了~

关于作者

她说她爱他

暂无简介

0 文章

0 评论

23 人气

关注发私信

友情链接

文江博客

[Lucene]IndexReader/Searcher 的开销是多少

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

[Lucene]IndexReader/Searcher 的开销是多少

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

已经忘了多久

15867725375

LonelySnow

走过海棠暮

轻许诺言

信馬由缰

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。