使用 Python 文本挖掘 PDF 文件?

发布于 2024-08-09 17:23:53 字数 45 浏览 3 评论 0 原文

python 是否有一个包/库可以让我打开 PDF,并在文本中搜索某些单词?

Is there a package/library for python that would allow me to open a PDF, and search the text for certain words?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

水水月牙 2024-08-16 17:23:53

使用 PyPdf2 您可以使用 extractText() 方法提取 pdf 文本并对其进行处理。

更新:更改了文本以引用 PyPdf2,感谢 @Aditya Kumar 的提醒。

Using PyPdf2 you can use extractText() method to extract pdf text and work on it.

Update: Changed text to refer to PyPdf2, thanks to @Aditya Kumar for heads up.

如歌彻婉言 2024-08-16 17:23:53

我不认为你可以一步完成,但你当然可以使用 pdfminer。然后您可以将任何文本搜索应用于恢复的数据。

I don't think you can do it in one step, but you can certainly get the text out of a pdf with pdfminer. Then you can apply whatever text search to that recovered data.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文