当前位置：文江博客话题详情

PDF C# ms-word text-extraction

从 PDF 中的嵌套表格中提取数据

发布于 2024-09-15 22:04:07 字数 367 浏览 1 评论 0原文

我有一些从 Word 或 Excel 文件创建的 pdf 文件。
我需要获取表格中的信息。
文档中的文本不是图像，因此我可以使用 pdfbox 等工具提取文本。
当我有文本时，我无法知道它属于表格中的哪些单元格，因为我不知道表格边框在哪里。
我尝试了一些桌面工具，例如 abby 或 Solid pdf Converter，它们能够将文件转换为漂亮的 Word 文档，但这不适合我的需求，因为我希望能够在 C# 中以编程方式完成此操作.
有些表有嵌套表，我认为这使得这有点困难。

我感谢你的帮助

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

起风了 2024-09-22 22:04:07

这里的困难是由于 PDF 中的文本不包含在任何表格中。看起来可能是这样，但在表面之下，事实并非如此。

所以我能想到几个选择。但它们都不会像您希望的那样令人满意。

有些公司提供用于 PDF 到 Excel/Word 转换的 SDK。 Investintech 和 Iceni 就是两个例子。但这些解决方案并不是免费的。
如果您知道需要从中提取表格数据的 PDF 文件的确切布局，那么您可以使用任何可以从 PDF 中提取文本并告诉您所提取文本的准确坐标的 SDK。使用此方法，您需要提前知道文本将在哪里，以便您可以从页面上的特定区域提取文本。如果您需要处理任何随机文档，它显然不起作用。

这是一项艰巨的任务，但希望这会给您一个起点。

回复收藏 0 原文

~没有更多了~

关于作者

蓝海似她心

暂无简介

0 文章

0 评论

21 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

lioqio

文章 0 评论 0

Single

文章 0 评论 0

禾厶谷欠

文章 0 评论 0

alipaysp_2zg8elfGgC

文章 0 评论 0

qq_N6d4X7

文章 0 评论 0

放低过去

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文