K-means 的种子选择策略
我想知道我可以将什么样的种子选择方法应用于 K 均值算法。谷歌搜索没有那么有帮助。有什么建议吗?
I wonder what kind of seed selection methods I can apply to K-means algorithm. Google search wasn't that helpful. Any suggestions?
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
种子取决于域。例如,如果您的数据项是单词,那么您的种子应该是最常见的单词。否则,您可以聚集一个小样本并将其用作种子。
下面是一个更复杂的算法的示例:
The seeds depend on the domain. For example, if your data items are words, your seeds should be the most frequent words. Otherwise, you could cluster a small sample and use that as a seed.
Here is an example of a more sophisticated algorithm:
Google 中的“监督”k 表示聚类和聚类。 k++ 意味着......还指定你的性能需求(你的 k 是多少?有多少输入点?)
一般来说,几千个点可以很容易地聚类成朴素的 k 意味着算法实现......所以我会首先尝试。
另外,如果您不确定 K 应该是什么,请首先尝试 MCL 聚类以获得良好的估计。
Google for "supervised" k means clustering & k++ means.... also specify your performance needs ( whats your k? how many input points?)
In general, a few thousand points can easily be clustered w a naive k means algorithm implementation... So I would try that first.
Also, if your not sure what K should be, try MCL clustering first to get a good estimate.