从数百万个简单但不一致的文本文件中提取信息

发布于 2024-11-05 06:50:09 字数 287 浏览 1 评论 0原文

我们有数百万个简单的 txt 文档，其中包含从 pdf 中提取的各种数据结构，文本是逐行打印的，因此所有格式都会丢失（因为当我们尝试使用工具来维护格式时，它们只是搞砸了）。我们需要从该文本文档中提取字段和值，但这些文件的结构存在一些变化（这里和那里换行，某些工作表上有噪音，因此拼写不正确）。

我想我们会创建某种模板结构，其中包含有关关键字和值的坐标（行、单词/单词数）的信息，并使用此信息来定位和收集关键字值，就像使用各种算法来弥补格式不一致一样。

有没有任何标准方法可以做到这一点，有任何可能有帮助的链接吗？还有其他想法吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

昵称有卵用 2024-11-12 06:50:09

可以使用 agrep 等模糊文本匹配工具来纠正或忽略噪音： http://www.tgries.de/ agrep/
然而，额外新线的问题仍然存在。

我建议的一种技术是以编译器类似的方式限制错误传播。例如，您尝试匹配您的模板或模式，但您无法做到这一点。稍后在文本中有一个确定的匹配，但它可能是当前未匹配模式的一部分。
在这种情况下，应该接受确定的匹配，并且应该将不匹配的文本块保留下来以供将来处理。这将使您能够跳过难以解析的错误。

回复收藏 0 原文

诺曦 2024-11-12 06:50:09

Larry Wall 的 Perl 是您的朋友。这正是它所擅长的问题领域。

Sed 还不错，但对于这种想法来说，Perl 就更胜一筹了。

回复收藏 0 原文

一萌ing 2024-11-12 06:50:09

虽然我支持 Unix 命令行和 Perl 的建议，但可能有帮助的更高级别工具是谷歌优化。它旨在处理混乱的现实世界数据。

回复收藏 0 原文

晨与橙与城 2024-11-12 06:50:09

我建议在这里使用图形正则表达式，规则非常弱，最终接受谓词。在这里，您可以在标记级别上编写模糊匹配，然后在行级别上编写模糊匹配等。

回复收藏 0 原文

夜吻♂芭芘 2024-11-12 06:50:09

我建议使用 Talend 数据集成工具。它是开源的（即免费！）。它基于 Java 构建，您可以通过修改底层 Java 代码来自定义您的数据集成项目。

我使用它并发现它对于低预算、高度复杂的数据集成项目非常有帮助。这是他们网站的链接；Talend

祝你好运。

回复收藏 0 原文

~没有更多了~

关于作者

剑心龙吟

暂无简介

0 文章

0 评论

378 人气

关注发私信

友情链接

文江博客

从数百万个简单但不一致的文本文件中提取信息

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

从数百万个简单但不一致的文本文件中提取信息

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（5）

关于作者

相关话题

热门标签

推荐作者

烙印

singlesman

给自己一个微笑

独孤求败

晨钟暮鼓

我是自愿种绣球花的

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。