使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件

发布于 2024-09-28 23:11:31 字数 1195 浏览 9 评论 0原文

您可以将 ExtractingRequestHandler 和 Tika 与任何一个一起使用吗压缩文件格式（zip、tar、gz 等）来提取内容以进行索引？

我使用curl 向solr 发送archived.tar 文件。卷曲” http://localhost:8983/solr /update/extract?literal.id=doc1&fmap.content=body_texts&commit=true" -H '内容类型：应用程序/八位字节流' --data-binary “@/home/archived.tar” 我查询文档时得到的结果是里面的文件名存档被索引为“body_texts”，但这些文件的内容是未提取或包含。这不是我所期望的行为。参考： http://www .lucidimagination.com/Community/Hear-from-the-Experts/Articles/Content-Extraction-Tika#article.tika.example。当我使用相同的curl发送存档内的实际文档1时命令提取的内容然后存储在“body_texts”字段中。是我缺少压缩文件的步骤吗？

我已经添加了所有提取依赖项，如 mat 所示 http://outoftime.lighthouseapp.com/projects/20339/tickets/98 -solr-cell 和我能够成功地从 MS Word、PDF、HTML 文档中提取数据。

我正在使用以下库版本。 Solr 1.40、Solr Cell 1.4.1 和 Tika Core 0.4

鉴于我读过的所有内容，这个版本的 Tika 应该支持提取压缩文件中所有文件的数据。任何帮助或建议都会受到赞赏。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

唱一曲作罢 2024-10-05 23:11:31

简短的回答：Solr Cell 1.4.1 和 Tika Core 0.6。

长答案：在经历了很多头痛之后，我终于能够让它工作了。我将为直接使用 solr 的人和使用 solr 与 Ruby 库 sunspot 的人（这是我的问题）回答这个问题。

这就是我所做的：我使用这个 https://github.com/tomasc/sunspot_cell 插件来扩展太阳黑子并赋予它附件功能。（如果您不使用 ruby/sunspot，请忽略此步骤）

v1.4.1 适用于单个文件，但不适用于压缩文件，因此我必须进行一些探索。我从 http://lucene.apache.org/solr/ 下载了 v1.4.1 代码库并抓取dist/apache-solr-cell-1.4.1.jar 然后我必须从 1.5 分支下载 Tika 库 http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/< /a>.

您可以单独下载每个文件，也可以使用 svn 来签出分支，

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

或者仅签出库文件夹：

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

The short answer: Solr Cell 1.4.1 and Tika Core 0.6.

The long answer: After a lot of headaches I was able to get this working. I'll answer it for both people using solr directly and for people using solr with the Ruby library sunspot (which was my problem).

Here was what I did: I used this https://github.com/tomasc/sunspot_cell plugin to extend sunspot and give it the attachment feature. (Ignore this step if you're not using ruby/sunspot)

v1.4.1 works for individual files but not with compressed files, so I had to explore a bit. I downloaded the v1.4.1 codebase from http://lucene.apache.org/solr/ and grabbed the dist/apache-solr-cell-1.4.1.jar then I had to pull down the Tika libraries from the 1.5 branch http://svn.apache.org/viewvc/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/.

You can download each individually, or you can use svn to checkout the branch by

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev

Or just checkout the library folder:

svn co http://svn.apache.org/repos/asf/lucene/solr/branches/branch-1.5-dev/contrib/extraction/lib/

回复收藏 0 原文

~没有更多了~

关于作者

素衣风尘叹

暂无简介

文章

26 人气

关注发私信

燃烧我的卡路李先生

文章 0 评论 0

关注

qq_2gSKZM

文章 0 评论 0

关注

∞梦里开花

文章 0 评论 0

关注

qq_IklFPL

文章 0 评论 0

关注

迷途知返

文章 0 评论 0

关注

深海不蓝

文章 0 评论 0

友情链接

文江博客

使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

使用 Solr CELL 的 ExtractingRequestHandler 从包格式中索引/提取文件

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。