当前位置：文江博客话题详情

parsing text-mining

用于解析草率/古怪/“几乎结构化”的背景阅读数据？

发布于 2024-08-04 03:09:39 字数 435 浏览 6 评论 0原文

我正在维护一个程序，需要解析以“几乎结构化”的文本形式存在的数据。即，生成它的各种程序使用稍微不同的格式，它可能已被打印出来并 OCR 回来（是的，我知道），但有错误等，所以我需要使用启发式方法来猜测它是如何生成的并应用不同的怪癖模式等。这是令人沮丧的，因为如果事情表现良好，我对解析的理论和实践有些熟悉，并且那里有很好的解析框架等，但是数据的不可靠性导致我写了一些非常草率的临时代码。目前还可以，但我担心当我将其扩展以处理更多变化和更复杂的数据时，事情会失控。所以我的问题是：

由于有相当多的现有商业产品可以做相关的事情（网络浏览器中的“怪异模式”，编译器中的错误解释，甚至自然语言处理和数据挖掘等），我确信一些聪明的产品人们已经对此进行了思考，并试图发展一种理论，那么以尽可能有原则的方式解析无原则数据的背景阅读的最佳来源是什么？

我意识到这有点开放式，但我的问题是我认为我需要更多背景知识才能知道要问的正确问题是什么。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（1）

皇甫轩 2024-08-11 03:09:39

考虑到你提出的方案和双手绑在背后与生牛肉味果酱浑身与饥饿的鳄鱼搏斗之间的选择，我会选择……

好吧，更严肃地说，如果你拥有不遵守任何“健全”结构的数据，您必须研究数据并找到其中的怪异频率，并将数据与给定上下文相关联（即它是如何生成的）

打印到 OCR 以获取数据几乎总是会导致心碎。我工作的公司雇佣了一支名副其实的人员队伍，他们手动阅读此类文档，并对已知有问题的 OCR 场景的数据进行手动“编码”（即手动输入），或者我们的客户检测到原始 OCR 失败的文档。

至于利用“解析框架”，这些框架往往期望数据始终遵循您制定的语法规则。您所描述的数据没有这样的保证。如果您走这条路，请为意外的（尽管并不总是显而易见的）失败做好准备。

如果有任何可能的方式来获取原始数据文件，请务必这样做。或者，如果您可以要求提供数据的人员将其数据采用单一定义良好的格式，那就更好了。（它可能不是“您的”格式，但至少它是您可以转换的常规且可预测的格式）

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

26 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

佚名

文章 0 评论 0

羁客

文章 0 评论 0

天天爱笑的徐老师

文章 0 评论 0

星

文章 0 评论 0

夏日落

文章 0 评论 0

隐诗

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文