SOLRJ 和索引文件

发布于 2024-11-04 12:03:28 字数 256 浏览 0 评论 0原文

我正在尝试对包含主题、正文和所有附件的电子邮件进行索引。对于索引,我使用常见的 SolrInputDocument。如何将附件添加到要索引的文档中?我在这里找到了类似的帖子 SolrJ 保持索引文件打开 但它只显示了方式,如何将文件与文档数据分开索引。如何将文件索引为其他电子邮件数据(如主题、正文、发件人等)的一部分?

I'm trying to index an email messages complelety with subject, body and all the attachments. For indexing I'm using common SolrInputDocument. How can I add attachments into document to be indexed? I have found the similar post here SolrJ keeps indexed files open but it only shows the way, how to index files separately from document data. How can I index files as being part of the other email message data like subject, body, sender etc. ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

无敌元气妹 2024-11-11 12:03:30

您是否还希望文本中的文本也可搜索?如果是的话,那就去 Tika 看看,它可以帮助你阅读 RTF、PDF 等格式的文件。

如果没有,您可以将附件的路径和文件名存储在索引中,并将附件存储在本地的某个路径上。

Do you also want the text inside the text to be searchable too? In case yes, then take a loot at Tika which helps reading files in RTF, PDF etc format.

In case not, you can just store the path and filename of the attachments in your index and the attachements locally at some path.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文