当前位置：文江博客话题详情

我们应该使用 k-means++而不是 k 均值？

发布于 2024-10-12 03:59:40 字数 302 浏览 4 评论 0原文

k-means++ 算法有助于原始 k 的以下两点-means算法：

原始的k-means算法在输入大小上具有超多项式的最坏情况运行时间，而k-means++声称是O(log k)。
与最佳聚类相比，所找到的近似值在目标函数方面可能会产生不太令人满意的结果。

但是 k-means++ 有什么缺点吗？从现在开始我们应该一直使用它而不是 k 均值吗？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

暗恋未遂 2024-10-19 03:59:40

没有人声称k-means++运行时间为 O(lg k)；它的解质量是 O(lg k) - 与最优解竞争。 k-means++ 和称为 Lloyd 算法的通用方法都是 NP 难优化问题的近似。

我不确定 k-means++ 最坏情况下的运行时间是多少；请注意，在 Arthur & Vassilvitskii的原始描述，算法的步骤2-4参考了Lloyd算法。他们确实声称它在实践中效果更好更快，因为它从一个更好的位置开始。

k-means++ 的缺点是：

它也可以找到次优解（它仍然是一个近似值）。
它并不总是比 Lloyd 的算法快（参见 Arthur 和 Vassivitskii 的表格）。
它比劳埃德算法更复杂。
它相对较新，而劳合社 50 多年来已经证明了它的价值。
对于特定的度量空间可能存在更好的算法。

也就是说，如果您的 k-means 库支持 k-means++，那么请务必尝试一下。

回复收藏 0 原文

说不完的你爱 2024-10-19 03:59:40

不是你的问题，而是对大 N 的任何 kmeans 方法的简单加速：

1）首先对点的 sqrt(N) 的随机样本进行 k-means
2) 然后从这些中心运行完整的 k 均值。

我发现对于 N 10000、k 20，这比 kmeans++ 快 5-10 倍，并且结果相似。
它对您的效果如何取决于 sqrt(N) 样本的效果
近似整体，以及 N、dim、k、ninit、delta ...

您的 N（数据点数量）、dim（特征数量）和 k 是多少？
用户的 N、dim、k、数据噪声、指标的巨大范围......
更不用说缺乏公共基准，使得比较方法变得困难。

添加：kmeans()和kmeanssample()的Python代码是
此处就这样；欢迎评论。

回复收藏 0 原文

~没有更多了~

关于作者

╰◇生如夏花灿烂

暂无简介

0 文章

0 评论

24 人气

关注发私信

苦中寻乐

文章 0 评论 0

关注

lueluelue

文章 0 评论 0

关注

嗼ふ静

文章 0 评论 0

关注

王权女流氓

文章 0 评论 0

关注

与花如笺

文章 0 评论 0

关注

残酷

文章 0 评论 0

友情链接

文江博客

我们应该使用 k-means++而不是 k 均值？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

我们应该使用 k-means++而不是 k 均值？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（2）

关于作者

相关话题

热门标签

推荐作者

苦中寻乐

lueluelue

嗼ふ静

王权女流氓

与花如笺

残酷

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。