如何从 pdf C# 中获取具有特定颜色的文本

发布于 2024-11-04 19:46:54 字数 226 浏览 1 评论 0原文

我必须将 pdf 文件中的数据放入特定的数据库结构中。这要求我能够从 pdf 文件中获取某些数据。由于 pdf 没有任何标签等...我想知道是否可以根据颜色获取文本。比如说我想要所有的红色文本。或者我想要文档中的所有斜体文本。这在 C# 中可能吗？或者有其他方法可以轻松过滤 pdf 文档中的数据吗？

在此处输入图像描述

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

战皆罪 2024-11-11 19:46:56

我采取了不同的方法。我把pdf文件转换成了excel文件。搜索彩色文本非常容易

回复收藏 0 原文

禾厶谷欠 2024-11-11 19:46:56

通过使用此库 http://www.codeproject.com/KB/files /xpdf_csharp.aspx?msg=3154408
您可以访问每种文字样式（字体、颜色...）

this.pdfDoc.Pages[4].WordList.ElementAt(143).ForeColor

By using this library http://www.codeproject.com/KB/files/xpdf_csharp.aspx?msg=3154408
you have an access to every word style (font, color...)

this.pdfDoc.Pages[4].WordList.ElementAt(143).ForeColor

回复收藏 0 原文

彩虹直至黑白 2024-11-11 19:46:56

iText 的 PdfTextExtractor（以及它所依赖的所有代码）不跟踪当前颜色。哎哟。添加起来并不那么困难，因此您可以自己修改 iText：

将描边和填充颜色成员添加到 GraphicState 类（并适当地更新各种构造函数）。
您需要为“g”、“G”、“rg”、“RG”、“K”和“k”（也许还有 CS、cs、SC、sc）添加 ContentOperator 类、SCN、scn），修改描边和填充颜色。
向 TextRenderInfo 添加方法以获取当前描边和填充颜色。

回复收藏 0 原文