当前位置：文江博客话题详情

parsing database ms-word

从数百个 Word 文档中抓取结构化信息？

发布于 2024-10-03 06:23:26 字数 230 浏览 1 评论 0 原文

我的任务是从数百个人类可读文档（主要是 MS Word）中提取一些结构化信息并将其放入数据库中。数据几乎嵌入在整个文档中的表格中，但表格之间有大量文本，尽管文档在结构上非常相似，但还是有一些差异。这些文档经常更改（我们每隔几个月就会得到一个更新版本）

到目前为止，我能想到的唯一可行的选择是手动遍历所有文档并插入/更新信息，但我想我会在这里问是否有人认为可以以某种方式抓取文档吗？

哦，数据必须相当正确......

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

单调的奢华 2024-10-10 06:23:26

我使用从 RTF 到 FO 的转换器做了类似的工作（尽管没有表格）。

您已将文档转换为 RTF，然后转换为 FO，这为您提供了良好的文档 XML 结构。然后您可以轻松解析它并抓取数据。

回复收藏 0 原文

~没有更多了~

关于作者

檐上三寸雪

暂无简介

文章

516 人气

关注发私信

梦途

文章 0 评论 0

关注

唐睦州

文章 0 评论 0

关注

且行且努力

文章 0 评论 0

关注

Yiu Peng

文章 0 评论 0

关注

albertliao

文章 0 评论 0

关注

逆夏时光

文章 0 评论 0

友情链接

文江博客

从数百个 Word 文档中抓取结构化信息？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（1）

关于作者

相关话题

热门标签

推荐作者

梦途