仅从 PDF 中提取粗体文本的最佳方法

发布于 2024-09-25 20:25:07 字数 178 浏览 2 评论 0原文

iTextSharp 是一个很棒的工具，我可以使用 PdfTextExtractor.GetTextFromPage(reader, iPage) + " "; 它工作得很好，但是有没有办法从 pdf 中只提取粗体文本（例如标题），而不是所有内容？

无论编程语言如何，任何解决方案都是有用的。谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

岁月流歌 2024-10-02 20:25:07

在 iText 中，您需要使用 com.itextpdf.text.pdf.parser 包中的类。

具体来说，您需要将 PdfTextExtractor 与自定义 TextExtractionStrategy 结合使用来检查字体名称。粗体字体的名称中通常带有“粗体”一词。

潜在问题：
1) 并非所有看起来像文本的东西都是用字体和字母呈现的。它可以是路径或位图。提取此类文本的唯一方法是使用 OCR，并且无法获取字体信息。
2）字体编码。映射到您在 PDF 中看到的字形的字节可能没有从这些字节到实际字符信息的映射。
3) 并非所有看起来粗体的文本都是用粗体字体制作的。一些粗体文本是通过用相当细的线以及通常的填充来抚摸文本轮廓而制成的。在这种情况下，文本渲染模式将设置为“描边和填充”而不是通常的“填充”。这种情况非常罕见，但确实时有发生。

测试问题 1 和 2 的一个简单方法是尝试在 Reader/Acrobat 中复制并粘贴文本。如果您无法选择它，则几乎可以肯定它是路径或图像。如果您可以选择它，但粘贴时字符显示为随机垃圾，则 iText 将出现相同的垃圾。

问题 3 并不难以编程方式进行测试，尽管您必须根据具体情况进行处理。您需要调用TextRenderInfo.getTextRenderMode()。 0 是填充（执行操作的标准方式），2 是“描边和填充”。

因此，您的 TextExtractionStrategy 可以存根 beginTextBlock、endTextBlock、renderImage 和 getResultantText。在 renderText 实现中，您必须检查字体名称（“粗体”，不区分大小写）和文本渲染模式。如果是其中任何一种情况，那么它就是您的标题的一部分。

所有这些都是假设您正在处理任意 PDF 文件。如果您的所有 PDF 都来自同一来源，您就可以开始偷工减料了。我将把它作为读者的练习。

回复收藏 0 原文