如何判断特定字体是否包含 PDF::API2 中的特定字符

发布于 2025-01-07 20:06:48 字数 308 浏览 1 评论 0原文

我在 Perl 应用程序中使用 PDF::API2 来嵌入 OCR 输出在相应图像后面,允许搜索生成的 PDF,如 OCR 可以使用pdftotext提取输出。

目前,只要应用程序在其中看到非 ASCII 字符, OCR 输出时,它从 PDF 核心字体切换到 TTF。然而,这 确实很老套,因为核心字体包括大多数西欧字体 人物。 TTF 仅适用于希腊语、俄语、日语、 等等。

我如何判断特定字体是否包含特定字体 字符(包括 CMAP 表,以便提取 pdftotext 有效)?

I use PDF::API2 in my Perl application to embed OCR
output behind the corresponding image, allowing the resulting PDF to be searched, as the OCR
output can be extracted with pdftotext.

At the moment, as soon as the application sees a non-ASCII character in
the OCR output, it switches from PDF core fonts to TTF. However, this
is really hacky, as the core fonts include most Western European
characters. TTF is only necessary for Greek, Russian, Japanese,
etc.

How can I tell whether a particular font includes a particular
character (including the CMAP table so that extraction with
pdftotext works)?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

昇り龍 2025-01-14 20:06:48

您是否尝试过特定于字形的方法?

http://search.cpan.org /dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS

如果失败,可能会渲染字形(到一个单独的文件)并测量它?

Have you tried the glyph-specific methods?

http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS

Failing that, perhaps rendering the glyph (to a separate document) and measuring it?

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文