当前位置：文江博客话题详情

lucene索引更新策略

发布于 2025-01-01 00:08:28 字数 402 浏览 2 评论 0原文

我正在为我的应用程序构建 lucene Web 服务器（用 Java 编写），并期望上游应用程序每秒对该服务器进行近 100 次搜索点击（该服务器将托管在由负载均衡器平衡的各种物理盒子上）。

数据视角我将拥有近 50K 文档（每个文档大小小于 1kb），并且每天都会有新的/更新的约 500 个文档。

我想知道每天在 500 个文档上构建索引而不影响上游扫描过程性能的最推荐方法。

我无法使用所有服务器之间的任何共享位置来共享文件索引，我能想到的几个选项

1）使用数据库索引（JDBC 目录） - 不确定优点和缺点 2）使用 RAMDirectory 索引 - 不确定更新策略。 3) 使用文件索引 - 无法想到稳健的设计来在各种物理设备之间构建和循环文件基础索引。

想知道有关正确索引设置策略的想法/建议。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

活泼老夫 2025-01-08 00:08:28

您真的需要自己构建查询/索引服务器吗？

您考虑过 ElasticSearch 吗？它会自动分区和复制您的索引，您只需配置所需的分区数量以及每个分区的副本数量。它还将为您提供一个简单的 HTTP 接口来进行索引和查询。在 ElasticSearch 中，所有节点/实例都是平等的，因此您可以向任何节点发送和查询文档。

对于小至 50K 的索引，我想具有几个副本的单个分区可以满足您每秒 100 个查询的要求。

无论如何，看来你的要求很轻。小于 1KB 的 50K 文档似乎非常适合内存索引（lucene 中的 RAMDirectory）。根据将向索引发出的查询，您可以使用更少的机器处理每秒 100 个查询。

考虑到您对更新延迟没有硬性要求并且新文档的数量很少，新文档的索引可以通过很多方式完成。您可以通过 HTTP 将文档发送到每个实例，通过 ssh/ftp 发送包含更新文档的 CSV 文件（或其他文件），并且每个实例每天索引一次该文件。

回复收藏 0 原文

~没有更多了~

关于作者

我还不会笑

暂无简介

文章

27 人气

关注发私信

友情链接

文江博客

lucene索引更新策略

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

lucene索引更新策略

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。