如何判断特定字体是否包含 PDF::API2 中的特定字符
我在 Perl 应用程序中使用 PDF::API2
来嵌入 OCR 输出在相应图像后面,允许搜索生成的 PDF,如 OCR 可以使用pdftotext
提取输出。
目前,只要应用程序在其中看到非 ASCII 字符, OCR 输出时,它从 PDF 核心字体切换到 TTF。然而,这 确实很老套,因为核心字体包括大多数西欧字体 人物。 TTF 仅适用于希腊语、俄语、日语、 等等。
我如何判断特定字体是否包含特定字体 字符(包括 CMAP 表,以便提取 pdftotext
有效)?
I use PDF::API2
in my Perl application to embed OCR
output behind the corresponding image, allowing the resulting PDF to be searched, as the OCR
output can be extracted with pdftotext
.
At the moment, as soon as the application sees a non-ASCII character in
the OCR output, it switches from PDF core fonts to TTF. However, this
is really hacky, as the core fonts include most Western European
characters. TTF is only necessary for Greek, Russian, Japanese,
etc.
How can I tell whether a particular font includes a particular
character (including the CMAP table so that extraction withpdftotext
works)?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您是否尝试过特定于字形的方法?
http://search.cpan.org /dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS
如果失败,可能会渲染字形(到一个单独的文件)并测量它?
Have you tried the glyph-specific methods?
http://search.cpan.org/dist/PDF-API2/lib/PDF/API2/Resource/BaseFont.pm#GLYPH_RELATED_METHODS
Failing that, perhaps rendering the glyph (to a separate document) and measuring it?