当前位置：文江博客话题详情

machine-learning text-parsing

如何检测来自各种来源的表格数据

发布于 2024-08-11 06:48:28 字数 339 浏览 2 评论 0原文

在我正在玩的一个实验项目中，我希望能够查看文本数据并检测它是否包含表格格式的数据。当然，有很多情况看起来像表格数据，所以我想知道我需要研究什么样的算法来寻找共同特征。

我的第一个想法是编写一个长 switch/case 语句来检查由制表符分隔的数据，然后检查由管道符号分隔的数据的另一个情况，然后再检查以另一种方式分隔的数据的另一个情况等等。现在我当然意识到我必须列出要检测的不同事物的列表 - 但我想知道是否有一种比对每种类型进行相对较慢的搜索更智能的方法来检测这些特征。

我意识到这个问题并不是特别雄辩地提出，所以我希望它有一定道理！

有什么想法吗？

（也不知道如何标记它 - 所以欢迎帮助！）

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（3）

许久 2024-08-18 06:48:28

唯一可靠的方案是使用机器学习。例如，您可以在一堆表格和非表格材料的示例上训练感知器分类器。

回复收藏 0 原文

倾其所爱 2024-08-18 06:48:28

混合解决方案可能是合适的，即您按照您的建议使用简单的启发式方法（以“类似开关”的方式处理）处理最常见/明显的情况，并留下更困难的情况，以便自动学习和其他类型的分类器逻辑。

回复收藏 0 原文

天冷不及心凉 2024-08-18 06:48:28

这假设您尚未在 TSV 中存储已定义的类型。

TSV 文件通常是
[Value1]\t[Value..N]\n

我的建议是：

计算所有选项卡
计算所有新行
计算第一行中的选项卡总数
将选项卡总数除以第一行中的选项卡数row

结果为 4，如果余数为 0，那么您就有了 TSV 文件的候选者。从那里，您可能想要执行以下操作：

您可以继续读取数据并忽略每行少于或多于预测制表符的行的错误
您可以在读取之前扫描每一行，以确保所有行都一致
您可以读取直到不适合格式的行，然后抛出错误

一旦您对制表符分隔值的数量有了很好的预测，您就可以使用正则表达式来解析这些值[作为一个组]。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

文章

评论

25 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

Promise

文章 0 评论 0

qq_lbRlsh

文章 0 评论 0

待＂谢繁草

文章 0 评论 0

yy2010hell

文章 0 评论 0

漫无边际

文章 0 评论 0

傲娇萝莉攻

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文