数据聚类算法

发布于 2024-10-05 08:17:26 字数 99 浏览 9 评论 0原文

处理大维度和海量数据集并且速度快的最流行的文本聚类算法是什么？阅读了这么多论文和这么多方法后，我感到很困惑……现在只想知道哪一种最常用，以便为编写文档聚类应用程序提供一个良好的起点。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

痕至 2024-10-12 08:17:26

为了解决维度灾难，您可以尝试确定生成数据集的盲源（即主题）。您可以使用主成分分析或因子分析，以减少特征集的维度并计算有用的索引。

PCA 是潜在语义索引中使用的内容，因为SVD 可以被证明是 PCA :)

请记住，当您获得数据集或其因子的主要成分时，您可能会失去解释，因此您可能想要走非负矩阵分解路线。（重点来了！K-Means 是一种特殊的 NNMF！）在 NNMF 中，数据集可以仅通过其加性、非负分量来解释。

回复收藏 0 原文

原谅我要高飞 2024-10-12 08:17:26

没有一种放之四海而皆准的方法。层次聚类始终是一种选择。如果您想从数据中形成不同的组，您可以使用 K 均值聚类（据说它的计算强度也较小）。

回复收藏 0 原文

怕倦 2024-10-12 08:17:26

两种最流行的文档聚类方法是层次聚类和 k-means。 k-means 速度更快，因为它与文档数量呈线性关系，而不是分层，后者是二次的，但通常被认为可以提供更好的结果。数据集中的每个文档通常表示为一个 n 维向量（n 是单词数），每个单词对应的维度大小等于其词频-逆文档频率得分。 tf-idf分数降低了高频词在相似度计算中的重要性。余弦相似度通常用作相似性度量。

可以找到一篇比较分层 k 均值和平分 k 均值（k 均值的近亲算法）之间的实验结果的论文此处。

文档聚类中降维的最简单方法是：a) 丢弃所有罕见和高频的单词（比如出现在少于 1% 和超过 60% 的文档中：这有点随意，您需要为每个单词尝试不同的范围）数据集以查看对结果的影响），b）停止：丢弃停止列表中的所有单词常见英语单词：可以在网上找到列表，以及 c) 词干，或删除后缀仅留下词根。最常见的词干分析器是 Martin Porter 设计的词干分析器。可以在此处找到多种语言的实现。通常，这会将数据集中的唯一单词数量减少到几百或几千个，并且可能不需要进一步降维。否则，可以使用 PCA 等技术。

回复收藏 0 原文

隱形的亼 2024-10-12 08:17:26

我会坚持使用 kmedoids，因为您可以在算法开始时计算从任意点到任意点的距离，您只需要执行一次，并且它可以节省您的时间，特别是在有很多维度的情况下。该算法的工作原理是选择距离它较近的点作为簇的中心，而不是根据属于该簇的点的平均值计算的质心。因此，您已经在此算法中完成了所有可能的距离计算。

回复收藏 0 原文

洛阳烟雨空心柳 2024-10-12 08:17:26

如果您不寻找语义文本聚类（我无法判断这是否是您原始问题的要求），请尝试使用 Levenshtein 距离并用它构建相似度矩阵。由此，您可以使用 k-medoids 进行聚类，然后通过使用轮廓系数来验证您的聚类。不幸的是，Levensthein 可能非常慢，但有一些方法可以通过使用阈值和其他方法来加快速度。

处理维数灾难的另一种方法是找到“对比集”，即在一组中比在其余组中更突出的属性-值对的连接。然后，您可以使用这些对比集作为维度来代替原始属性或使用有限数量的属性。

回复收藏 0 原文

~没有更多了~