在哪里可以找到 Apache Lucene/Solr 的性能基准

发布于 2025-01-08 02:58:35 字数 76 浏览 2 评论 0原文

是否有任何针对大型数据集上 Lucene/Solr 性能基准的链接/资源。 500GB ~ 5TB 以上范围的数据集

谢谢

Are there any links/resources towards performance benchmarks for Lucene/Solr on large datasets. Data sets above the range of 500GB ~ 5TB

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

未蓝澄海的烟 2025-01-15 02:58:35

Lucene 提交者 Mike McCandless 定期运行基准来跟踪性能改进和回归。它们是根据维基百科导出内容制作的,可能比您要查找的内容小一点。

但性能并不那么依赖于输入大小,而是依赖于文档和独特术语的数量。如果您已经拥有一些与需要索引的数据类似的数据,我建议您查看 Mike 的测试工具,根据您的需求进行调整,并使用您自己的数据集和硬件运行它,以尝试找出您可以期望的性能数据。

Lucene committer Mike McCandless runs benchmarks on a regular basis to track down performances improvements and regressions. They are made with Wikipedia exports, which might be a little bit smaller than what you are looking for.

But the performance doesn't depend so much on the input size, but rather on the number of documents and unique terms. If you already have some data similar to what you will need to index, I would recommend you check out Mike's test tool, adapt it to your needs, and run it with your own dataset and hardware to try to find out what kind of performance numbers you can expect.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文