对文本进行分类时自动将类别相互链接

发布于 2024-11-30 02:39:29 字数 595 浏览 6 评论 0原文

我一直在从事一个项目，对大量短文本进行数据挖掘，并根据预先存在的大量类别名称列表对这些文本进行分类。为此，我必须弄清楚如何首先从数据中创建一个好的文本语料库，以便获得分类的参考文档，然后将分类的质量提高到可接受的水平。我已经完成了这一部分（幸运的是，很多人已经对文本进行分类进行了大量研究）。

现在我的下一个问题是，我试图找出一种在计算上将各个类别相互链接的好方法。也就是说，要弄清楚如何识别“汽车”和“雪佛兰”在某种程度上有关联。到目前为止，我已经尝试利用 Cavnar 和 Trenkle 等人描述的 N-Gram 分类方法来比较我为每个类别创建的各种参考文档。不幸的是，我从该方法中得到的最好结果似乎是类别之间大约 50-55% 的正确关系，这些是最好的关系，总体而言约为 30-35%，这是非常低的。

我也尝试了其他几种方法，但无法获得高于 40% 的相关链接（非相关关系的一个例子是“卡车”类别与“化妆品”类别密切相关） ”或“尿布”类别，但与“雪佛兰”关系较弱（或根本不相关）。

现在，我尝试寻找更好的方法来做到这一点，但似乎我找不到任何方法（但我知道其他人做得比我更好）。有人有这方面的经验吗？关于创建类别之间关系的可用方法有什么建议吗？目前，我尝试过的方法要么根本没有提供足够的关系，要么包含太高比例的垃圾关系。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

吾家有女初长成 2024-12-07 02:39:29

显然，进行匹配的最佳方法很大程度上取决于您的分类、“参考文档”的性质以及您想要创建的预期关系。

但是，根据提供的信息，我建议如下：

首先根据参考文档为每个类别构建基于单词（而不是基于字母）的一元模型或二元模型。如果每个类别只有很少的文档（看起来您可能只有一个），您可以使用半监督方法，并为每个类别添加自动分类的文档。用于构建模型的相对简单的工具可能是 CMU SLM 工具包。
计算互信息 (infogain)模型中的每个术语或短语与其他类别的关系。如果您的类别相似，您可能需要仅使用相邻类别才能获得有意义的结果。此步骤将为最佳分离项提供更高的分数。
根据最热门的信息增益术语或短语将类别相互关联。这可以通过使用类别模型之间的欧几里德距离或余弦距离来完成，或者通过使用更复杂的技术（例如基于图的算法或层次聚类）来完成。