关于聚类方法的问题

发布于 2024-09-30 07:52:06 字数 277 浏览 11 评论 0原文

最近我开始研究数据挖掘中的聚类,并且研究了顺序聚类、层次聚类和 k 均值。

我还读到了一种将 k-means 与其他两种聚类技术区分开来的说法,说 k-means 不太擅长处理名义属性,但文本没有解释这一点。到目前为止,我唯一的区别是可以看到,对于 K 均值,我们会提前知道我们将需要恰好 K 个聚类,而我们不知道其他两种聚类方法需要多少个聚类。

那么有人能给我一些关于为什么存在这样的陈述的想法吗,即,k-means 在处理标称属性的示例时存在这个问题,有没有办法克服这个问题?

提前致谢。

recently I came to study clustering in data-mining and I've studied sequential clustering and hierarchical clustering and k-means.

I also read about a statement that distinguishes k-means from the other two clustering technique,saying k-means is not very good at dealing with nominal attributes,but the text didn't explain this point.So far,the only difference that I can see is that for K-means,we will know in advance we will need exactly K clusters while we don't know how many clusters we need for other two clustering methods.

So could anybody give me some idea here on why such statement exists,i.e.,k-means has this problem when dealing with examples of nominal attributes and is there a way to overcome this?

Thanks in advance.

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(1

∞觅青森が 2024-10-07 07:52:06

k-means 算法通过取簇中所有点的平均值来计算簇质心。如果参数是名义参数,则不能取平均值。

有时,可以将标称值放入某种顺序中,然后映射到实际值。例如,一周中的几天可以映射到范围 [1.0 - 7.0],但有时这是不可能的,例如具有值 [Windows、Linux、OSX] 的属性。

The k-means algorithm calculates cluster centroids by taking the mean values of all the points in the cluster. If a parameter is nominal then you can't take an mean value.

Sometimes nominal values can be put into a kind of order and then mapped to real values. For example, days of the week could be mapped onto the range [1.0 - 7.0], but then again sometimes that isn't possible, for example an attribute with values [Windows, Linux, OSX].

~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文