如何通过xpdf或mupdf获取指定文本pos?

发布于 2024-12-06 02:21:51 字数 117 浏览 2 评论 0原文

我想提取pdf文件中的一些指定文本和文本位置。

我知道 xpdf 和 mupdf 可以解析 pdf 文件,所以我认为它们可以帮助我完成这项任务。

但是如何使用这两个lib来获取文本位置呢?

I want to extract some specified text in pdf files and the text position.

I know xpdf and mupdf can parse pdf files,so i think they may help me to fulfill this task.

But how to use these two lib to get text position?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

断肠人 2024-12-13 02:21:51

如果您不介意为 MuPDF 使用 Python 绑定,这里有一个使用 PyMuPDF 的 Python 解决方案(我是它的开发人员之一):

import fitz                     # the PyMuPDF module
doc = fitz.open("input.pdf")    # PDF input file
page = doc[n]                   # page number n (0-based)
wordlist = page.getTextWords()  # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)

# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()

# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))

如果您感兴趣,我们可以在 GitHub 上找到。

If you don't mind using a Python binding for MuPDF, here is a Python solution using PyMuPDF (I am one of its developers):

import fitz                     # the PyMuPDF module
doc = fitz.open("input.pdf")    # PDF input file
page = doc[n]                   # page number n (0-based)
wordlist = page.getTextWords()  # gives you a list of all words on the
# page, together with their position info (a rectangle containing the word)

# or, if you only are interested in blocks of lines belonging together:
blocklist = page.getTextBlocks()

# If you need yet more details, use a JSON-based output, which also gives
# images and their positions, as well as font information for the text.
tdict = json.loads(page.getText("json"))

We are on GitHub if you are interested.

国际总奸 2024-12-13 02:21:51

Mupdf 附带了几个工具,其中一个是 pdfdraw

如果您将 pdfdraw 与 -tt 选项一起使用,它将生成一个包含所有字符及其确切位置信息的 XML
从那里您应该能够找到您需要的东西。

Mupdf comes with a couple of tools, one being pdfdraw.

If you use pdfdraw with the -tt option, it will generate an XML containing all characters and their exact positioning information.
From there you should be able to find what you need.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文