当前位置：文江博客话题详情

k-means cluster-analysis distance sparse-matrix data-mining

稀疏矩阵中元素聚类的距离度量

发布于 2024-10-21 08:39:48 字数 239 浏览 5 评论 0原文

我尝试使用 K 均值基于大约 1200 个二元变量对大约 12000 个元素进行聚类。传统的距离度量（欧几里德距离度量、曼哈顿距离度量、汉明距离度量、编辑距离度量）都没有产生令人满意的结果。

我设计了以下指标。

距离 (x,y)= 最小值 P(x=0|y=1) P(y=0|x=1)

有没有人使用类似的方法来解决此类问题？使用这个指标有什么明显的缺陷吗？我对数据挖掘比较陌生，希望得到任何反馈。

谢谢

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

痞味浪人 2024-10-28 08:39:48

您尝试建模的领域是什么？您可以使用来自领域的见解进行聚类吗？
在这种一般情况下，可以说的很少。我会尝试降维，以便首先获得更有意义的特征，然后进行聚类，但使用域知识在这里可以提供帮助。

回复收藏 0 原文

℡寂寞咖啡 2024-10-28 08:39:48

您可以使用二元属性上的杰卡德距离。
假设您正在比较 2 行 A 和 B。

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

Jaccard 系数将为

J = M11/(M11+M10+M01)

Jaccard 距离为：

D=(M01+M10)/(M11+M10+M01)

You can use Jaccard's distance over binary attributes.
Assume you are comparing 2 rows A and B.

M11 - is the number of attributes where both Ai=Bi=1
M01 - is the number of attributes where Ai=0 and Bi=1
M10 - is the number of attributes where Ai=1 and Bi=0

The Jaccard coefficient will be

J = M11/(M11+M10+M01)

The Jaccard distance will be:

D=(M01+M10)/(M11+M10+M01)

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

24 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

苦中寻乐

文章 0 评论 0

lueluelue

文章 0 评论 0

嗼ふ静

文章 0 评论 0

王权女流氓

文章 0 评论 0

与花如笺

文章 0 评论 0

残酷

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文