如何在 iPhone 的 pdf 页面中使用 CGPDFScanner 查找字坐标?

发布于 2025-01-07 06:21:14 字数 175 浏览 0 评论 0原文

我正在使用 CGPDFScanner 解析 pdf 页面。 但我无法找到搜索结果的坐标。

在 void Tm1(CGPDFScannerRef Scanner, void *info) 中,我只获取某些单词的坐标,而不是 pdf 中每个单词的坐标。

我怎样才能找到pdf页面每个单词的坐标例如(x,y)?

I am doing parsing of the pdf page using CGPDFScanner.
But I am not able to find the co-oridnate of the serach result.

In the void Tm1(CGPDFScannerRef scanner, void *info),I am only getting co-oridnates for some word but not for every word of the pdf.

How can I find the co-oridnates e.g(x,y) of every word of pdf page ?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

深者入戏 2025-01-14 06:21:14

您大大低估了将 PDF 转换为文本的复杂性。我也犯了这个错误,花了几个月的时间编写一个适用于大多数 PDF 的文本提取引擎。我的代码是商业代码,但只是为了给您一个想法:

Td、TD、Tm、T*、d0、d1 都可以包含文本。 (d0、d1 用于 Type3 字体,不太常见,但 Microsoft Word 非常喜欢它们)因此可以执行 XObjects 中的任何对象(也是递归的)。但您还需要解析字体,因为许多 PDF 都将 CMap 附加到将“随机数字”转换为字符(或字符 - PDF 也可以具有连字)的字体。请注意,XObject 也可能包含字体,并且以正确的顺序解析它们至关重要,因为字体可以具有父字体。

Adobe 的 ToUnicode PDF 为您提供一些想法如何开始,但只是一个警告,该规范非常不完整。官方 PDF 参考中有更多内容,但您仍然会发现不应工作(查看规范时)但仍然有效(当您在 Adob​​e Acrobat 中尝试它们时)的文档。

You're drastically under-estimating the complexity to convert PDF to text. I made that mistake as well, and it took months to write a text extraction engine that works with most PDFs. My code is commercial, but just to give you an idea:

Td, TD, Tm, T*, d0, d1 all can contain text. (d0, d1 are for Type3 fonts, which are less common, but Microsoft Word really likes them) So can do any objects in XObjects (also recursively). But you also need to parse the Fonts, since many PDFs have CMaps attached to fonts that translate "random numbers" to the character (or characters - PDF can have ligatures as well). Beware, XObjects might also contain fonts, and it's critical to parse them in the right order, since fonts can have parent fonts.

Adobe's ToUnicode PDF gives you some idea how to start, but just a warning, the spec is very incomplete. There's a bit more in the official PDF reference, but you still will find documents that should not work (when looking at the spec) but still DO work (when you try them in Adobe Acrobat).

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文