当前位置：文江博客话题详情

如何从 PDF 中提取数据？

发布于 2024-07-27 03:43:16 字数 169 浏览 4 评论 0原文

我的公司通过 Excel 从外部公司接收数据。我们将其导出到 SQL Server 以运行数据报告。他们现在正在更改为PDF格式，有没有办法可靠地从PDF中移植数据并将其插入到我们的SQL Server 2008数据库中？

这是否需要编写一个应用程序，或者是否有一种自动化的方法来做到这一点？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

水晶透心 2024-08-03 03:43:16

正如已经提到的 - 您将必须编写一个应用程序来执行此操作，但理想情况下您将能够从外部公司获取原始数据，而不必处理 PDF。

但是，如果您确实想要从 PDF 中提取数据，我使用了 iText 并发现它非常强大、可靠~~而且最重要的是 - 免费~~。它具有 Java 和 .Net 风格 - iTextSharp 是 .Net 版本。它允许您以编程方式操作 PDF 文档，并将 PDF 的内容公开给您编写的应用程序。

回复收藏 0 原文

深陷 2024-08-03 03:43:16

这完全取决于他们如何将数据包含在 PDF 中。一般来说，这里有两种可能的情况：

数据只是 PDF 中的文本对象。您需要使用工具从 PDF 中提取文本，然后将其插入数据库中。
数据包含在 PDF 的表单字段中。您需要使用工具从表单字段中提取数据并将其插入数据库中。

希望场景 #2 适用于您，因为这正是 PDF 表单的设计目的。场景 #1 实际上只是一个 hack，只有在没有任何其他选择的情况下才会使用。从 PDF 中提取纯文本并不像您想象的那么简单或准确。

如果您收到 PDF 表单，那么您所需要做的就是将 PDF 表单中的正确字段与数据库中的相应字段进行匹配，然后吸收数据。如果您编写自己的应用程序，此过程可以完全自动化。

这是否需要编写一个应用程序或
有没有一种自动化的方法
这个？

是的，这两个选项都需要编写应用程序或购买应用程序。如果您编写自己的应用程序，那么您需要找到一个支持从表单字段检索数据或从 PDF 中提取文本的第三方 PDF 库。

回复收藏 0 原文

孤独陪着我 2024-08-03 03:43:16

免责声明：我隶属于 ByteScout PDF Extractor SDK 工具的制造商

只是想分享一些从 PDF 中提取文本数据的额外现实场景：

没有可搜索文本的扫描图像：应该由 OCR 引擎处理（例如免费的 Tesseract 来自 Google)
XFA表单：它是 PDF 的子集，主要由 Adobe 工具支持。但可以使用低级 PDF 处理工具（例如 iTextSharp 或类似工具）将数据提取为 XML 数据。
ZUGFeRD PDF 文件，只是带有表单数据副本的 PDF 文档作为 XML 文件附加（可以使用 this 等工具提取）
某些 PDF 生成器错误编码的文本（可以是通过 OCR 引擎恢复，但有一些可接受的错误率）。

回复收藏 0 原文

瑾夏年华 2024-08-03 03:43:16

使用 ItextSharp，执行以下操作

using System;
using System.Configuration;
using System.Data.SqlClient;
using System.IO;
using System.Text;
using iTextSharp.text.pdf;

   protected void BtnSubmit_Click(object sender, EventArgs e)
        {
            String FilePath = @"GetFilePath";
            StringBuilder sb = new StringBuilder();

            PdfReader reader = new PdfReader(FilePath);           
            PdfStamper myStamp = new PdfStamper(reader, new FileStream(FilePath + "_TMP",    FileMode.Create));
            AcroFields form = myStamp.AcroFields;

            if (form.GetField("GetFieldIdFromPDF") != null)
               sb.Append(form.GetField("GetFieldIdFromPDF").ToString());
   }

Using ItextSharp, do the following

using System;
using System.Configuration;
using System.Data.SqlClient;
using System.IO;
using System.Text;
using iTextSharp.text.pdf;

   protected void BtnSubmit_Click(object sender, EventArgs e)
        {
            String FilePath = @"GetFilePath";
            StringBuilder sb = new StringBuilder();

            PdfReader reader = new PdfReader(FilePath);           
            PdfStamper myStamp = new PdfStamper(reader, new FileStream(FilePath + "_TMP",    FileMode.Create));
            AcroFields form = myStamp.AcroFields;

            if (form.GetField("GetFieldIdFromPDF") != null)
               sb.Append(form.GetField("GetFieldIdFromPDF").ToString());
   }

回复收藏 0 原文