当前位置：文江博客话题详情

非结构化文本到结构化数据

发布于 2024-09-08 02:29:12 字数 262 浏览 16 评论 0原文

我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料（教程、书籍、学术文献）。

我知道这可能属于 NLP 类别，但我只对从“Levi jeans size 32 A0b293”之类的过程感兴趣

：品牌：Levi，尺码：32，类别：牛仔裤，代码：A0b293

我想它将是词法分析和机器学习技术的某种组合。

我对语言相当不可知，但如果推动的话，我会更喜欢 python、Matlab 或 C++ 参考文献，

谢谢

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

压抑⊿情绪 2024-09-15 02:29:12

您需要提供有关文本来源（网络？用户输入？）、领域（只是衣服吗？）、潜在格式和词汇的更多信息……

假设最坏的情况，您需要开始学习 NLP。 NLTK 的文档是一本非常好的免费书籍： http://www.nltk.org/book 。这也是对 Python 的很好的介绍，并且软件是免费的（可用于各种用途）。请注意：NLP 很难。它并不总是有效。有时并不有趣。最先进的技术与您想象的相差甚远。

假设一个更好的场景（您的文本是半结构化的） - 一个很好的免费工具是 pyparsing。有本书，有大量示例，并且生成的代码非常有吸引力。

我希望这有帮助...

回复收藏 0 原文

梦忆晨望 2024-09-15 02:29:12

可以看看托比·塞加兰（Toby Segaran）的《集体智慧》。我似乎记得在一章中讨论了这一点的基础知识。

回复收藏 0 原文

缱倦旧时光 2024-09-15 02:29:12

经过一番研究，我发现这个问题通常被称为信息提取，并积累了一些论文并将它们存储在 Mendeley Collection

http://www.mendeley.com/research-papers/collections/3237331/Information-Extraction/

也称为 Tai Weiss 指出，Python 的 NLTK 是一个很好的起点，此本书的一章专门讨论信息提取

回复收藏 0 原文

过度放纵 2024-09-15 02:29:12

如果您只处理像您引用的示例这样的情况，那么您最好使用一些基于手动规则的方法，该规则是 100% 可预测的，并且涵盖了生产中可能遇到的 90% 的情况。

您可以枚举所有可能品牌的列表，并且类别并检测输入字符串中的哪个是哪个，因为这两个列表中通常很少有交集。

使用正则表达式可以轻松检测和提取其他两个列表。（1-3 位数字始终是大小等）

您的问题域似乎不够大，无法保证采用更繁重的方法，例如统计学习。

回复收藏 0 原文

~没有更多了~

关于作者

被翻牌

暂无简介

文章

24 人气

关注发私信

落墨

文章 0 评论 0

关注

gz5281527

文章 0 评论 0

关注

不识常识

文章 0 评论 0

关注

绿阴红影里的.如风往事

文章 0 评论 0

关注

动物凶猛

文章 0 评论 0

关注

coderyrg

文章 0 评论 0

友情链接

文江博客

非结构化文本到结构化数据

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者