如何通过xpdf或mupdf获取指定文本pos?
我想提取pdf文件中的一些指定文本和文本位置。
我知道 xpdf 和 mupdf 可以解析 pdf 文件,所以我认为它们可以帮助我完成这项任务。
但是如何使用这两个lib来获取文本位置呢?
I want to extract some specified text in pdf files and the text position.
I know xpdf and mupdf can parse pdf files,so i think they may help me to fulfill this task.
But how to use these two lib to get text position?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
如果您不介意为 MuPDF 使用 Python 绑定,这里有一个使用 PyMuPDF 的 Python 解决方案(我是它的开发人员之一):
如果您感兴趣,我们可以在 GitHub 上找到。
If you don't mind using a Python binding for MuPDF, here is a Python solution using PyMuPDF (I am one of its developers):
We are on GitHub if you are interested.
Mupdf 附带了几个工具,其中一个是
pdfdraw
。如果您将 pdfdraw 与
-tt
选项一起使用,它将生成一个包含所有字符及其确切位置信息的XML
。从那里您应该能够找到您需要的东西。
Mupdf comes with a couple of tools, one being
pdfdraw
.If you use pdfdraw with the
-tt
option, it will generate anXML
containing all characters and their exact positioning information.From there you should be able to find what you need.