SOLRJ 和索引文件
我正在尝试对包含主题、正文和所有附件的电子邮件进行索引。对于索引,我使用常见的 SolrInputDocument。如何将附件添加到要索引的文档中?我在这里找到了类似的帖子 SolrJ 保持索引文件打开 但它只显示了方式,如何将文件与文档数据分开索引。如何将文件索引为其他电子邮件数据(如主题、正文、发件人等)的一部分?
I'm trying to index an email messages complelety with subject, body and all the attachments. For indexing I'm using common SolrInputDocument. How can I add attachments into document to be indexed? I have found the similar post here SolrJ keeps indexed files open but it only shows the way, how to index files separately from document data. How can I index files as being part of the other email message data like subject, body, sender etc. ?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您是否还希望文本中的文本也可搜索?如果是的话,那就去 Tika 看看,它可以帮助你阅读 RTF、PDF 等格式的文件。
如果没有,您可以将附件的路径和文件名存储在索引中,并将附件存储在本地的某个路径上。
Do you also want the text inside the text to be searchable too? In case yes, then take a loot at Tika which helps reading files in RTF, PDF etc format.
In case not, you can just store the path and filename of the attachments in your index and the attachements locally at some path.