当前位置：文江博客话题详情

同义词样式文本查找和解析

发布于 2024-07-26 01:30:40 字数 477 浏览 9 评论 0原文

我们有一位客户正在寻找一种方法来导入和分类大量文本数据。必须对这些数据进行分类，建议最简单的方法是查看描述字段并尝试匹配那里的单词，看看是否可以为该特定记录派生出一个类别。

人们认为最好的方法是将单词与针对每个类别的关键词进行匹配，如果不成功，则使用某种同义词查找来查看是否可以使用它。例如，如果特定记录中包含单词“汽车”，则同义词查找可以将该单词与单词“汽车”匹配，该单词将针对“车辆”类别进行保存。

有谁知道网络服务或其他查找词典以查找特定单词同义词的方法吗？项目经理建议为此购买 Google Enterprise Search 许可证，但据我所知，这并不能提供这些人正在寻找的东西。

任何其他为客户提供他们正在寻找的东西的建议都将被感激地接受。

谢谢！我会研究一下Wordnet。

您知道还有其他类型的文本分类软件产品吗？我看到有一些关于使用巴亚斯算法的讨论，但我看不到任何现实世界的例子。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

稍尽春風 2024-08-02 01:30:40

我首先想到的是 Wordnet。 Wordnet 是一个人工生成的单词和相关单词（包括同义词）数据库。 Wikipedia Wordnet 条目列出了 Wordnet 的几个接口。我相信其中一些是网络服务。
您也可以自己推出。 Manning 和 Schutze 的第 5 章（免费 PDF）展示了实现此目的的方法。

话虽如此，您正在解决正确的问题吗？如何构建类别列表？
这是一个等级制度吗？标签云？请参阅Clay Shirky 的本体论被高估了，以了解对层次类别的批评。我认为，如果您的分类基于单词集（例如朴素贝叶斯）而不是单个单词，那么同义词就不那么重要了。