当前位置：文江博客话题详情

r cluster-analysis data-mining expectation-maximization

您使用什么方法来选择 k 均值和 EM 中的最佳簇数？

发布于 2024-08-22 07:21:10 字数 276 浏览 5 评论 0原文

有许多聚类算法可用。一种流行的算法是 K 均值，其中基于给定数量的聚类，该算法迭代以找到对象的最佳聚类。

在 k 均值聚类中，您使用什么方法来确定数据中的聚类数量？

R 中是否有可用的软件包包含用于确定正确簇数的 V 折交叉验证方法？

另一种常用的方法是期望最大化（EM）算法，它为每个实例分配一个概率分布，表明它属于每个簇的概率。

这个算法是用R实现的吗？

如果是，它是否可以选择通过交叉验证自动选择最佳簇数？

您是否更喜欢其他聚类方法？

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

番薯 2024-08-29 07:21:10

对于大型“稀疏”数据集，我强烈推荐“亲和传播”方法。
与 k 均值相比，它具有优越的性能，并且本质上是确定性的。

http://www.psi.toronto.edu/affinitypropagation/
它发表在《科学》杂志上。

然而，最佳聚类算法的选择取决于所考虑的数据集。 K 均值是一种教科书方法，很可能有人开发了一种更适合您的数据集类型的更好算法/

这是 Andrew Moore 教授（CMU、Google）关于 K 均值和层次聚类的很好的教程。
http://www.autonlab.org/tutorials/kmeans.html

回复收藏 0 原文

夢归不見 2024-08-29 07:21:10

上周，我为 K 均值聚类程序编写了这样一个估计聚类数量的算法。我使用了中概述的方法：

http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.70.9687&rep=rep1&type=pdf

我最大的实现问题是我必须找到合适的集群验证索引（即错误度量）可以工作。现在是处理速度的问题，但目前的结果看起来还算合理。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

1CH1MKgiKxn9p

文章 0 评论 0

ゞ记忆︶ㄣ

文章 0 评论 0

JackDx

文章 0 评论 0

信远

文章 0 评论 0

yaoduoduo1995

文章 0 评论 0

霞映澄塘

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文