优化 Lucid/Solr 以索引大型文本文档

发布于 2024-12-01 00:14:23 字数 544 浏览 2 评论 0原文

我正在尝试在 solr 中索引大约 300 万个文本文档。这些文件中大约 1/3 是包含大约 1-5 段文本的电子邮件。剩下的 2/3 文件每个只有几个单词和句子。

Lucid/Solr 需要近 1 小时才能完全索引我正在使用的整个数据集。我正在尝试寻找优化此问题的方法。我已将 Lucid/Solr 设置为仅提交每 100,000 个文件，并且它一次以 50,000 个文件为一组对文件进行索引。内存不再是问题，因为批处理的缘故，内存始终保持在 1GB 左右。

整个数据集必须首先建立索引。这就像一个遗留系统必须加载到新系统中，因此必须对数据建立索引并且需要尽可能快，但我不确定这次要研究哪些领域来优化。

我在想，也许有很多像“the、a、because、should、if、...”之类的小词会造成大量开销，而且只是“噪音”词。我很好奇如果我删除它们是否会大大加快索引时间。我已经查看 Lucid 文档一段时间了，但我似乎找不到一种方法来指定哪些单词不建立索引。我遇到了“停止列表”这个术语，但除了顺便提到它之外，没有看到更多内容。

有没有其他方法可以让索引速度更快，或者我只是坚持 1 小时的索引时间？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

不离久伴 2024-12-08 00:14:23

我们最近遇到了类似的问题。我们不能使用 solrj，因为请求和响应必须经过一些应用程序，因此我们采取以下步骤：
创建自定义 Solr 类型流式传输大文本字段！

使用 GZipOutput/InputStream 和 Bse64Output/InputStream 来压缩大文本。这可以减少大约 85% 的文本大小，从而减少传输请求/响应的时间。
减少客户端的内存使用：
2.1 我们使用流API（GSon流或XML Stax）来逐一读取文档。
2.2 定义自定义 Solr 字段类型：FileTextField，接受 FileHolder 作为值。 FileTextField 最终会将读取器传递给 Lucene。 Lucene将使用阅读器读取内容并添加到索引。
2.3 当文本字段太大时，首先将其解压缩到临时文件，创建 FileHolder 实例，然后将 FileHolder 实例设置为字段值。