当前位置：文江博客话题详情

如何从 PDF 文件中提取数据，同时跟踪其结构？

发布于 2024-07-23 02:32:46 字数 338 浏览 6 评论 0原文

我的目标是从 PDF 文件中提取文本和图像，同时解析其结构。解析结构的范围并不详尽；我只需要能够识别标题和段落。

我尝试了一些不同的方法，但在其中任何一个方面都没有取得很大进展：

将 PDF 转换为文本。它对我不起作用，因为我丢失了图像和文档的结构。
将 PDF 转换为 HTML。我发现了一些可以帮助我完成此任务的工具，迄今为止最好的工具是 pdftohtml。该工具在演示方面确实非常好，但我无法成功解析 HTML。
将 PDF 转换为 XML。与上面相同。

有人对如何解决这个问题有什么建议吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

夜空下最亮的亮点 2024-07-30 02:32:46

本质上没有一个简单的剪切和粘贴解决方案，因为 PDF 对结构并不是很感兴趣。该网站上还有许多其他答案可以更详细地告诉您一些事情，但是这个答案应该为您提供要点：

如果识别 PDF 文档中的文本结构如此困难，那么 PDF 阅读器是如何做到如此出色的呢？

如果如果您想在 PDF 本身中执行此操作（您将在其中对过程进行大部分控制），则必须循环遍历页面上的所有文本并通过查看其文本属性（使用的字体、相对于文本的大小）来识别标题页面上的其他文本等...）。

除此之外，您还必须通过查看文本片段的位置、页面上的空白、某些字母、单词和线条的紧密程度来识别段落……PDF 本身甚至没有“段落”的概念。 “字”，更不用说“行”或“段落”了。

更复杂的是，文本在页面上绘制的方式（以及文本在 PDF 文件本身中出现的顺序）甚至不必是正确的阅读顺序（或者我们人类认为正确的顺序）阅读顺序）。

回复收藏 0 原文

海之角 2024-07-30 02:32:46

PDF 解析标题及其子内容确实非常困难（这并不意味着它不可能），因为 PDF 有多种格式。但我最近遇到了名为 GROBID 的工具，它可以在这种情况下提供帮助。我知道它并不完美，但如果我们提供适当的培训，它可以实现我们的目标。

Grobid 在 github 上作为开源代码提供。

https://github.com/kermitt2/grobid

回复收藏 0 原文

画尸师 2024-07-30 02:32:46

您可以对 iTextSharp 或其他开源库使用以下方法：

使用 iTextSharp 或类似开源库读取 PDF 文件工具并将所有文本对象收集到一个数组中（或使用 pdftohtml 等工具将 PDF 转换为 HTML，然后解析 HTML）
按坐标对所有文本对象进行排序，以便将它们全部放在一起
然后迭代对象并检查它们之间的距离，看看是否可以将 2 个或更多对象合并到一个段落中

或者您可以使用商业工具，例如 < a href="http://bytescout.com/products/developer/pdfextractorsdk/extract-from-pdf-to-excel-csv-in-csharp" rel="nofollow">ByteScout PDF Extractor SDK 即能够做到这一点：

提取文本和图像，并分析文本
XML 或 CSV 的布局，其中文本对象被合并或拆分为虚拟布局网格内的段落
通过特殊的 API 访问对象，从而可以通过其对象来寻址每个对象“虚拟”行和列索引，不管它如何存储在原始 PDF 中。

免责声明：我隶属于 ByteScout

回复收藏 0 原文

萝莉病 2024-07-30 02:32:46

PDF 文件可以使用 tabula-py 或 tabula-java 进行解析。

我制作了关于如何在这篇文章。只要您安装了 Java，您也可以在网络浏览器中制作表格。

回复收藏 0 原文

吐个泡泡 2024-07-30 02:32:46

除非它是标记内容，否则 PDF 没有结构......您必须“猜测”它，这就是各种工具正在做的事情。有一篇很好的博客文章解释了这些问题 http://blog.idrsolutions.com/2010/09/the-easy-way-to-discover-if-a-pdf-file-contains-structed-content/< /a>

回复收藏 0 原文