如何评估聚类？

发布于 2025-01-01 10:39:35 字数 447 浏览 4 评论 0原文

我仍在研究评估使用聚类（无监督学习）形成的聚类？

我尝试过谷歌搜索，但得到的措施过于理论化。如果人们能够分享他们用来评估形成的集群的机制，那就太好了。假设我有一个 Java 集群，其中包含 Java EE、Java ME、RMI、JVM 等。另一个集群是 NoSQL，其中包含 Neo4j、OrientDB、CouchDB 等。这是完美的，我的集群算法给了我最多的东西。准确的聚类。

然而，经过训练和测试后，我可能会在 NoSQL 集群下得到 MySQL、Oracle，所以我只需进行手动/可视化解释，然后重新训练我的算法或对其进行调整，以便获得更好的集群。

现在，我想自动化手动可视化集群的过程，并拥有一个可以为我提供形成的集群准确性的系统。我正在寻找类似于搜索中使用的 Precision 、 Recall 、 NDCG 、 Map 等的东西。我的簇的长度各不相同，并且可能形成 n 个不同的簇，因此精度/召回率不是正确的事情。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

自此以后，行同陌路 2025-01-08 10:39:35

我正在开发一个集群项目，到目前为止我也有同样的问题。

现在我正在使用 JavaML 库，它内置了多种聚类算法（在我的例子中，我'm 使用 K-means），这个库还有几个函数来评估这个算法。

我用来评估集群“质量”的函数是每个集群元素的平方误差之和。为了不那么数学地解释这种评估方法，基本上，误差平方和总结了每个簇的每个元素到各自簇质心的距离（在 K 均值的情况下）。这不是您喜欢的完美和理想的评估，它可能比视觉比较更好（我有同样的问题），但至少是识别“您的集群有多好”的正式方法。它价格便宜、速度快，并且可以为您提供集群的总体视图。

您可能还想检查“集群标签”问题。这并不是一件小事，但它旨在解决同样的问题。

我认为您问题的正确答案取决于您正在使用的聚类算法并理解这里的一些数学理论，因为这不是一个简单的主题:)

祝您好运！

回复收藏 0 原文