稀疏矩阵中元素聚类的距离度量
我尝试使用 K 均值基于大约 1200 个二元变量对大约 12000 个元素进行聚类。传统的距离度量(欧几里德距离度量、曼哈顿距离度量、汉明距离度量、编辑距离度量)都没有产生令人满意的结果。
我设计了以下指标。
距离 (x,y)= 最小值 P(x=0|y=1) P(y=0|x=1)
有没有人使用类似的方法来解决此类问题?使用这个指标有什么明显的缺陷吗?我对数据挖掘比较陌生,希望得到任何反馈。
谢谢
I am attempting to cluster approximately 12000 elements based on approximately 1200 binary variables using K-means. None of the conventional distance metrics (euclidean, manhattan, Hamming, Levenshtein) have produced satisfactory results.
I have devised the following metric.
Dist(x,y)= Min of
P(x=0|y=1)
P(y=0|x=1)
Has anyone used a similar approach to this type of problem? Are there any obvious flaws in using this metric? I am relatively new to data mining and would appreciate any feedback.
Thanks
如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。
绑定邮箱获取回复消息
由于您还没有绑定你的真实邮箱,如果其他用户或者作者回复了您的评论,将不能在第一时间通知您!
发布评论
评论(2)
您尝试建模的领域是什么?您可以使用来自领域的见解进行聚类吗?
在这种一般情况下,可以说的很少。我会尝试降维,以便首先获得更有意义的特征,然后进行聚类,但使用域知识在这里可以提供帮助。
What is the domain you are trying to model? Can you use insights from the domain for clustering?
There is very little that can be said in this general setting. I would try dimension reduction in order to get more meaningful features first, and cluster later, but using domain knowledge can help here.
您可以使用二元属性上的杰卡德距离。
假设您正在比较 2 行 A 和 B。
Jaccard 系数将为
Jaccard 距离为:
You can use Jaccard's distance over binary attributes.
Assume you are comparing 2 rows A and B.
The Jaccard coefficient will be
The Jaccard distance will be: