PDF：具有不同 ToUnicode Cmap 的重复字体名称

发布于 2024-12-28 07:18:09 字数 568 浏览 2 评论 0原文

我正在解析 PDF 文件并提取一些文本，并且遇到了一种名为“C2_0”的字体字典的情况，其中包含带有 ToUnicode CMap。所以，没问题 - 我有工具来解析 ToUnicode CMap 并将 2 字节字符代码映射到 Unicode 值。

但 PDF 文件稍后包含另一个字体字典对象，也称为“C2_0”，其中包含不同 ToUnicode CMap.我真的不知道应该如何处理第二个 CMap，所以我只是猜测并组合了两个 CMap 中的条目。这确实有效，并且正确提取了文本。

但是，我在 PDF 参考手册中找不到任何说明这是允许的，甚至找不到解决这种情况的内容。我本以为重复的字体名称会导致未指定的行为，或者至少让第二个字体覆盖第一个字体或其他内容。我只是尝试将它们结合起来作为一个不太可能的猜测 - 令人惊讶的是它实际上有效。

有人有这方面的经验吗？有谁知道 PDF 是否允许有重复的字体名称，这些字体名称引用具有不同 CMap 的不同对象，这些 CMap 在由 Tf 运算符调用时“组合”？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

心在旅行 2025-01-04 07:18:09

C2_0是/Font资源字典中的符号名称，具有本地作用域，仅在资源字典所属的内容流中使用。如果 C2_0 也出现在另一个 /Font 资源字典中，那不是问题。
在同一个 /Font 资源字典中有 2 个 C2_0 条目：
/C2_0 X 0 R
/C2_0 是 0 R
那么你就会遇到问题，因为行为未定义，如何处理这种情况取决于你。
符号名称解析的工作原理如下：如果您位于页面内容流中，请在页面的资源字典中搜索字体符号名称（Tf 操作数）。如果找不到它，请在页面树中向上查找资源字典（如果存在）以查找每个父页面节点。如果到达页面树的顶部但没有找到字体，则行为未定义。此时您可以实施各种回退策略：您可以使用默认字体，您可以在页面上搜索以XObjects形式包含的资源，您可以在其他页面中搜索资源字典。