从 PDF 中读取字体颜色信息

发布于 2024-12-06 16:04:40 字数 272 浏览 0 评论 0原文

我正在开发一款软件，可以分析 PDF 文件并根据它们生成 HTML。有很多东西已经做到了这一点，所以我知道这是可能的，出于商业原因我必须自己编写。

我已经设法从 PDF 中获取所有文本信息、位置、字体，但我很难读出文本的颜色。我目前正在使用 PDFMiner 来分析 PDF，但我开始认为我需要编写自己的 PDFReader，即便如此，我也无法弄清楚文本的颜色信息在文档中的位置保存！我什至阅读了 PDF 规范，但找不到我需要的信息。

我用谷歌搜索了一下，没有任何乐趣。

提前致谢！

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

故事还在继续 2024-12-13 16:04:40

使用 PDF 文件内容流对象中的 g、rg 或 k 运算符之一设置文本和其他填充图形的颜色，如 PDF 参考手册中4.5.7 颜色运算符部分所述。

参考手册中的示例G.3简单图形示例显示了这些运算符用于描边和填充某些形状（但不是文本）。

http://www.adobe.com/devnet/pdf/pdf_reference.html

当您自己解析 PDF 文件时，您首先要阅读预告片
在包含文件偏移量的文件末尾
交叉引用表。该表包含文件偏移量
PDF 文件中的每个对象。对象位于带有引用的树结构中
到其他对象。其中一个物体将是
内容流。这在 3.4 文件结构 部分中进行了描述
以及 PDF 参考手册中的3.6 文档结构。

可以自己解析 PDF 文件，但这是
相当多的工作。内容
流可以被压缩，包含对其他对象的引用，
包含评论等，您必须处理所有这些情况。

PDFMiner 软件已经在读取内容流。或许它
扩展 PDFMiner 来报告颜色会更容易
文本也？