从 PDF 中提取 ToUnicode 表
谁能建议一种易于实现的方法来从 PDF 中提取 ToUnicode 表?我可以使用 pdfextract 从 mupdf 中提取字体,现在我正在寻找一种方法来提取这些字体的 ToUnicode 表。
Can anyone suggest an easy to implement way to extract ToUnicode tables from PDF? I can extract fonts using pdfextract from mupdf, now I'm looking for a way to extract ToUnicode tables for those fonts.
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(1)
您可以修改 pdfextract 以提取 ToUnicode CMap(不是表、CMap)。
您可以查看 savefont 中的代码并添加类似以下内容的内容:
如果存在 ToUnicode(不需要),那么您可以以与将字体流写入文件的方式类似的方式转储流。
buf->data(大小为 buf->len)将包含 CMap,您可以将其写入文件或其他内容。
You can modify pdfextract to extract the ToUnicode CMaps (not tables, CMaps).
You might look at the code in savefont and add something like :
If there is a ToUnicode (there need not be) then you could dump the stream in a similar way to the way the font stream is written to file.
buf->data (of size buf->len) would then contain the CMap, which you could write to file, or whatever.