稀疏矩阵中元素聚类的距离度量

发布于 2024-10-21 08:39:48 字数 239 浏览 1 评论 0原文

我尝试使用 K 均值基于大约 1200 个二元变量对大约 12000 个元素进行聚类。传统的距离度量(欧几里德距离度量、曼哈顿距离度量、汉明距离度量、编辑距离度量)都没有产生令人满意的结果。

我设计了以下指标。

距离 (x,y)= 最小值 P(x=0|y=1) P(y=0|x=1)

有没有人使用类似的方法来解决此类问题?使用这个指标有什么明显的缺陷吗?我对数据挖掘比较陌生,希望得到任何反馈。

谢谢

I am attempting to cluster approximately 12000 elements based on approximately 1200 binary variables using K-means. None of the conventional distance metrics (euclidean, manhattan, Hamming, Levenshtein) have produced satisfactory results.

I have devised the following metric.

Dist(x,y)= Min of
P(x=0|y=1)
P(y=0|x=1)

Has anyone used a similar approach to this type of problem? Are there any obvious flaws in using this metric? I am relatively new to data mining and would appreciate any feedback.

Thanks

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。

评论(2

痞味浪人 2024-10-28 08:39:48

您尝试建模的领域是什么?您可以使用来自领域的见解进行聚类吗?
在这种一般情况下,可以说的很少。我会尝试降维,以便首先获得更有意义的特征,然后进行聚类,但使用域知识在这里可以提供帮助。

What is the domain you are trying to model? Can you use insights from the domain for clustering?
There is very little that can be said in this general setting. I would try dimension reduction in order to get more meaningful features first, and cluster later, but using domain knowledge can help here.

℡寂寞咖啡 2024-10-28 08:39:48

您可以使用二元属性上的杰卡德距离。
假设您正在比较 2 行 A 和 B。

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

Jaccard 系数将为

J = M11/(M11+M10+M01)

Jaccard 距离为:

D=(M01+M10)/(M11+M10+M01) 

You can use Jaccard's distance over binary attributes.
Assume you are comparing 2 rows A and B.

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

The Jaccard coefficient will be

J = M11/(M11+M10+M01)

The Jaccard distance will be:

D=(M01+M10)/(M11+M10+M01) 
~没有更多了~
我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
原文