使用 Python 文本挖掘 PDF 文件?
python 是否有一个包/库可以让我打开 PDF,并在文本中搜索某些单词?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
python 是否有一个包/库可以让我打开 PDF,并在文本中搜索某些单词?
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
接受
或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
发布评论
评论(2)
使用 PyPdf2 您可以使用 extractText() 方法提取 pdf 文本并对其进行处理。
更新:更改了文本以引用 PyPdf2,感谢 @Aditya Kumar 的提醒。
Using PyPdf2 you can use extractText() method to extract pdf text and work on it.
Update: Changed text to refer to PyPdf2, thanks to @Aditya Kumar for heads up.
我不认为你可以一步完成,但你当然可以使用 pdfminer。然后您可以将任何文本搜索应用于恢复的数据。
I don't think you can do it in one step, but you can certainly get the text out of a pdf with pdfminer. Then you can apply whatever text search to that recovered data.