当前位置：文江博客话题详情

以编程方式提取 PDF 表格

发布于 2024-09-12 20:00:16 字数 304 浏览 6 评论 0原文

我有一堆包含表格数据的 PDF 文档，我需要将它们提取为更易读的格式以存储在电子表格、数据库或其他内容中。

世界上有没有什么东西（最好是免费的）能够将 PDF 中的表格数据转换为更易读的格式批量，无论是与应用程序本机集成还是被动地集成通过命令行或在代码（.net）中循环进程？

实际上可以是任何格式（doc、html），只要维护表格即可。

到目前为止，我发现的任何内容要么是一次性的（一次只做一个文档，我有数百个文档，但这种情况没有发生），要么不维护表结构。

有什么想法请留言。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

十六岁半 2024-09-19 20:00:16

这是一个巨大的麻烦。一般来说，提取 PDF 文件的文本内容与 PDF 希望您执行的操作背道而驰。

首先尝试将文本取出来。这可能或多或少成功，具体取决于 PDF 的构建方式。可以从 GhostScript 或 pstotext 开始。如果你失败了，这个人有一个文本提取工具列表。获得文本流后，您可以尝试以编程方式重新组装表格结构。

最后，如果您的状况非常糟糕，并且 PDF 不配合，您可以进行 OCR 操作。正确的长期解决方案是从一开始就将数据转换为正确的格式，要么通过执行单个、大规模、痛苦且可能部分手动的过程；或者转到来源并建议以更有用的形式提供数据。

如果您可以提供更具体的 PDF 示例文件，可能会有更好或更精确的答案...对此没有通用的解决方案，如果可能的话，需要根据您的特定源数据进行定制。

请注意这个对一般性问题...对于解决您面前的问题这一事实没有帮助，但在向您的老板解释为什么没有明显的答案时，它可能会提供有用的封面？ ;-)

出现了一个新的 SO 问题，并引用了这个库 - iTextSharp - 看起来可能相关。所以问题：提取的最佳方法...

回复收藏 0 原文

划一舟意中人 2024-09-19 20:00:16

有关为什么 PDF 文件格式永远不应该被认为适合托管可提取的结构化数据的背景信息，请参阅这篇文章：
- 为什么更新文档的美元如此困难
对于从 PDF 中提取表格数据（除非它们是扫描页面）的一系列令人惊叹的工具来说，它们每周都变得越来越好，矛盾点“1”。上面请参阅这些链接：

回复收藏 0 原文

眉黛浅 2024-09-19 20:00:16

查看 IvyTools IvyPdf：www.ivytools.net
它可以提取表格以及任何其他数据。如果您的文档结构良好，那么设置起来非常容易，而且它也可以处理相当复杂的场景。它免费供个人使用。

回复收藏 0 原文

青春如此纠结 2024-09-19 20:00:16

考虑到您的要求，直接回答您的问题是完全不可能的。原因是，与word/excel不同，PDF规范没有称为Table的对象。您在这些 PDF 文档中看到的表格只是一系列以看起来像表格的方式绘制的矩形，这取决于创建这些 PDF 文件的 PDF Writer，因为有些人可能会使用系列线绘制表格类型的结构。

但您可能可以根据 PDF 文件规范编写自己的解析器，但它是如果您选择实现自己的解析器，这仍然是一项艰巨的任务，并且需要几个月的时间才能获得一个可以处理相当多 PDF 文档的解析器。

万一，您决定编写自己的解析器。下面的文章将帮助您快速入门。
代码项目文章

回复收藏 0 原文

傲娇萝莉攻 2024-09-19 20:00:16

PDF 格式是作为字母的集合构建的，没有固有的格式或任何东西。您可以将 PDF 视为通过 OCR 的页面，您可以从那里获取它 - 字母及其坐标就在那里 - 其余的由您决定 - 找出布局、格式、列和最终的表格。

回复收藏 0 原文

做个ˇ局外人 2024-09-19 20:00:16

当你说

到目前为止我发现的任何东西......一次只做一个文档

我假设你的意思是“是一个 GUI 应用程序，没有编程接口”。

在这种情况下，您可以使用 Microsoft UI Automation 以编程方式控制应用程序并使其执行您想要的操作。

UIA ...提供了一种公开和收集有关用户界面元素和控件的信息的方法，以支持用户界面可访问性和软件测试自动化...并且与 Win32 和 .NET Framework 兼容。

回复收藏 0 原文

木槿暧夏七纪年 2024-09-19 20:00:16

如果所有数据都是文本数据，您始终可以使用 iTextSharp。它是免费的，您只需要“itextsharp.dll”。

http://sourceforge.net/projects/itextsharp/

这是一个用于读出文本的简单函数PDF 的。

Public Shared Function GetTextFromPDF(PdfFileName As String) As String
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)

    Dim sOut = ""

    For i = 1 To oReader.NumberOfPages
        Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy

        sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
    Next

    Return sOut
End Function

这至少会让你得到开始的文本。

If all the data is text data, you can always use iTextSharp. It's free and you only need the "itextsharp.dll".

http://sourceforge.net/projects/itextsharp/

Here is a simple function for reading the text out of a PDF.

Public Shared Function GetTextFromPDF(PdfFileName As String) As String
    Dim oReader As New iTextSharp.text.pdf.PdfReader(PdfFileName)

    Dim sOut = ""

    For i = 1 To oReader.NumberOfPages
        Dim its As New iTextSharp.text.pdf.parser.SimpleTextExtractionStrategy

        sOut &= iTextSharp.text.pdf.parser.PdfTextExtractor.GetTextFromPage(oReader, i, its)
    Next

    Return sOut
End Function

That will at least get you the text to start with.

回复收藏 0 原文