如何索引 PDF 文件并搜索关键字？

发布于 2024-11-26 03:08:51 字数 434 浏览 2 评论 0原文

我有一堆 PDF（几百个）。它们没有适当的结构，也没有特定的领域。他们所拥有的只是大量的文字。

我想做的事情：

索引 PDF 并根据索引搜索一些关键字。我有兴趣查找该特定关键字是否在 PDF 文档中，如果是，我想要找到该关键字的行。如果我在包含该术语的 PDF 文档中搜索“Google”，我希望看到“Google 是一个很棒的搜索引擎”，这是 PDF 中的一行。

我决定如何做：

使用 SOLR 或 Whoosh，但 SOLR 看起来很适合内置 PDF 支持。我更喜欢用 Python 编写代码，Sunburst 是我喜欢的 SOLR 的包装器。 SOLR 的示例/示例项目有一些基于价格比较的模式文件。现在我不确定是否可以使用SOLR来回答我的问题。

你们有什么建议？任何意见都非常感谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

沩ん囻菔务 2024-12-03 03:08:51

我认为 Solr 适合您的需求。

“突出显示”功能正是您所寻找的。为此，您必须索引并将文档存储在 lucene 索引中。

突出显示功能返回一个片段，其中标记了搜索的文本。

看看这个： http://wiki.apache.org/solr/HighlightingParameters

回复收藏 0 原文

三寸金莲 2024-12-03 03:08:51

另一个离线/独立解决方案：

https://github.com/WolfgangFahl/pdfindexer
它使用 PDFBox 和 Apache Lucene，并将为找到的每个关键字创建一个 HTML 索引文件，其中包含指向 PDF 文件中页面的链接。

回复收藏 0 原文

沧桑㈠ 2024-12-03 03:08:51

我曾经通过使用 pdftotext 等实用程序将 PDF 文件转换为文本来解决这个问题（我猜 pdftohtml 也可以工作），生成某种“缓存”。然后使用一些 grep 我在文本文件缓存中搜索关键字。

这与您提出的解决方案略有不同，但我可以想象您也可以从 Python 调用它。

回复收藏 0 原文

~没有更多了~

关于作者

梦旅人picnic

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

如何索引 PDF 文件并搜索关键字？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

书间行客

我ぃ本無心為│何有愛

神妖

undefined

38169838

彡翼

友情链接

如何索引 PDF 文件并搜索关键字？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

书间行客

我ぃ本無心為│何有愛

神妖

undefined

38169838

彡翼

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。