当前位置：文江博客话题详情

加速 Solr 索引

发布于 2024-12-01 08:20:12 字数 75 浏览 1 评论 0原文

我正在努力加快我的 Solr 索引速度。我只想知道默认情况下 Solr 使用多少个线程（如果有）用于索引。有没有办法增加/减少这个数字。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

终弃我 2024-12-08 08:20:12

当您索引文档时，会执行几个步骤：

分析文档，
将数据放入 RAM 缓冲区，
当 RAM 缓冲区已满时，
如果超过 ${mergeFactor}，则将数据刷新到磁盘上的新段段，段被合并。

前两个步骤将在与向 Solr 发送数据的客户端一样多的线程中运行，因此如果您希望 Solr 为这些步骤运行三个线程，您只需从三个线程向 Solr 发送数据即可。

如果使用 ConcurrentMergeScheduler (http://lucene.apache.org/java/3_0_1/api/core/org/apache/lucene/index/ConcurrentMergeScheduler.html)，则可以配置第四步使用的线程数。但是，无法从 Solr 配置文件中配置要使用的最大线程数，因此您需要编写一个在构造函数中调用 setMaxThreadCount 的自定义类。

我的经验是，提高 Solr 索引速度的主要方法是：

购买更快的硬件（尤其是 I/O）、
从多个线程向 Solr 发送数据（与核心一样多的线程是一个好的开始）、
使用 Javabin 格式、
使用更快的分析仪。

虽然 StreamingUpdateSolrServer 对于提高索引性能看起来很有趣，< a href="https://issues.apache.org/jira/browse/SOLR-1565">它不支持Javabin格式。由于 Javabin 解析比 XML 解析快得多，因此我通过使用 CommonsHttpSolrServer 和 Javabin 格式发送批量更新（在我的例子中为 800 个，但文档相当小）获得了更好的性能。

您可以阅读 http://wiki.apache.org/lucene-java/ImproveIndexingSpeed 了解更多信息。