Solr ExtractingRequestHandler 为 pdf 文档提供空内容

发布于 2024-08-16 09:19:50 字数 311 浏览 9 评论 0原文

我在 Solr 中使用 ExtractingRequestHandler 来获取文档内容并为其建立索引。它适用于所有 Microsoft 文档，但对于 PDF，提取的内容为空。我还尝试了使用curl 的extractOnly=true ，它也只返回空的主体。

我在相同的文档上独立使用了 TIKA，并且可以很好地提取内容。不同之处在于，当独立执行时，我使用 Tika 附带的 BodyContentHander，而不是 Solr 使用的 SolrContentHandler。有人见过这个吗？

我真的宁愿让 Solr 处理它，也不愿使用 Tika 在 Solr 之外提取内容。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

小忆控 2024-08-23 09:19:50

在解决这个问题之前，我花了几个小时处理这个问题——我以非二进制模式打开 PDF，并将它们仅提供给 solr，直到文件中的第一个 EOF 字符。 Solr 仍会从文件中提取元数据（如 PDF 标题中所示），但会在响应中返回一个空的正文标记。

这可能不适用于原始海报，但它可能确实可以帮助其他人避免浪费生命中的时间。

回复收藏 0 原文

~没有更多了~

关于作者

你如我软肋

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

Solr ExtractingRequestHandler 为 pdf 文档提供空内容

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

Solr ExtractingRequestHandler 为 pdf 文档提供空内容

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

佚名

羁客

天天爱笑的徐老师

星

夏日落

隐诗

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。