K-means 的种子选择策略

发布于 2024-12-08 18:15:02 字数 55 浏览 1 评论 0原文

我想知道我可以将什么样的种子选择方法应用于 K 均值算法。谷歌搜索没有那么有帮助。有什么建议吗?

I wonder what kind of seed selection methods I can apply to K-means algorithm. Google search wasn't that helpful. Any suggestions?

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

跨年 2024-12-15 18:15:02

种子取决于域。例如,如果您的数据项是单词,那么您的种子应该是最常见的单词。否则,您可以聚集一个小样本并将其用作种子。

下面是一个更复杂的算法的示例:

k-Means 的单通道种子选择算法。
K. Karteeka Pavan、Allam Appa Rao、AV Dattatreya Rao 和 GR Sridhar。
计算机科学杂志 6 (1): 60-66, 2010。 pdf

The seeds depend on the domain. For example, if your data items are words, your seeds should be the most frequent words. Otherwise, you could cluster a small sample and use that as a seed.

Here is an example of a more sophisticated algorithm:

Single Pass Seed Selection Algorithm for k-Means.
K. Karteeka Pavan, Allam Appa Rao, A.V. Dattatreya Rao and G.R. Sridhar.
Journal of Computer Science 6 (1): 60-66, 2010. pdf

软的没边 2024-12-15 18:15:02

Google 中的“监督”k 表示聚类和聚类。 k++ 意味着......还指定你的性能需求(你的 k 是多少?有多少输入点?)

一般来说,几千个点可以很容易地聚类成朴素的 k 意味着算法实现......所以我会首先尝试。

另外,如果您不确定 K 应该是什么,请首先尝试 MCL 聚类以获得良好的估计。

Google for "supervised" k means clustering & k++ means.... also specify your performance needs ( whats your k? how many input points?)

In general, a few thousand points can easily be clustered w a naive k means algorithm implementation... So I would try that first.

Also, if your not sure what K should be, try MCL clustering first to get a good estimate.

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文