在 Solr 中解析 PDF 的 Tika/PDFBox 的替代方案（1.4 之后的任何版本）

发布于 2024-12-15 20:53:44 字数 231 浏览 4 评论 0原文

似乎 Solr 没有正确解析我的 PDF 文件。我想知道是否有其他替代方法可以使用 Apache Tika（我相信它内部使用 PDFBox）来解析 PDF 文件？使用此功能时，我的内容之间似乎出现了随机空格。我通过直接通过PDFBox（最新版本）运行PDF来隔离问题，它也有同样的问题。

一些 OCR 商业软件（例如 Omnifind）可以很好地处理 PDF，但我们无法以相同的方式将它们与 Solr 集成，并且购买也不是一个选择。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

鹿港巷口少年归 2024-12-22 20:53:44

正如这个问题的答案所示，这是由于PDF 格式本身。

OCR 选项在这个问题上可能比 PDFBox 做得更好，有一些免费的 OCR 选项可用，例如 Tesseract 和 Ocropus 但我不知道它们的效果如何工作或者它们是否可以轻松地与 Solr 集成。

回复收藏 0 原文

国粹 2024-12-22 20:53:44

Xpdf 包含 pdftotext，它比 Tika 更好地转换文档。

回复收藏 0 原文

睫毛上残留的泪 2024-12-22 20:53:44

我使用 jpod 作为后备库，当 pdfbox 完全失败（挂起、崩溃...... ），所以至少在某些情况下它对我来说比 pdbbox 更好。

回复收藏 0 原文

~没有更多了~

关于作者

爺獨霸怡葒院

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

在 Solr 中解析 PDF 的 Tika/PDFBox 的替代方案（1.4 之后的任何版本）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

在 Solr 中解析 PDF 的 Tika/PDFBox 的替代方案（1.4 之后的任何版本）

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

琉璃梦幻

qq_4zWU6L

话少情深

西西弗的石头怪

彻夜缠绵

千寻…

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。