我在 100 维空间中有 2,000,000 个点。如何将它们聚类为 K（例如 1000）个簇？

发布于 2024-10-01 23:55:43 字数 138 浏览 3 评论 0原文

问题来了如下。我有 M 个图像，并为每个图像提取 N 个特征，每个特征的维度为 L。因此，我有 M*N 个特征（对于我的情况为 2,000,000），每个特征具有 L 维（对于我的情况为 100）。我需要将这些 M*N 特征聚类成 K 个簇。我该怎么做呢？谢谢。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

水中月 2024-10-08 23:55:43

您想要 1000 个图像簇、特征簇或（图像、特征）对吗？
无论如何，听起来你必须减少数据
并使用更简单的方法。

一种可能性是两次通过 K 簇：
a) 将 200 万个数据点分成 32 个簇，
b) 将其中每一个分成 32 个以上。
如果这有效，则生成的 32^2 = 1024 个簇可能足以满足您的目的。

那么，你真的需要 100 个坐标吗？
你能猜出 20 个最重要的吗？
或者只是尝试 20 的随机子集？

有大量文献：Google +image“降维” 给出了约 70000 次点击。

回复收藏 0 原文

红玫瑰 2024-10-08 23:55:43

您已将问题标记为“k-means”。为什么不能使用 k 均值？这是效率问题吗？（我个人只在二维中使用过k-means）或者是如何编码k-means算法的问题？

您的值是离散的（例如类别）还是连续的（例如坐标值）？如果是后者，那么根据我的理解，k-means 应该没问题。对于离散值的聚类，则需要不同的算法 - 也许是层次聚类？

回复收藏 0 原文

水晶透心 2024-10-08 23:55:43

LMW-tree 项目中的 EM-tree 和 K-tree 算法可以聚类如此大的问题更大。我们最新的结果是将 7.33 亿个网页聚类成 600,000 个集群。 EM 树还有一个流式变体，其中每次迭代的数据集都是从磁盘流式传输的。

回复收藏 0 原文

红玫瑰 2024-10-08 23:55:43

对数百万个点进行聚类时的一个好技巧是对它们进行采样，对样本进行聚类，然后将剩余的点添加到现有样本中

回复收藏 0 原文

~没有更多了~

关于作者

笙痞

暂无简介

0 文章

0 评论

24 人气

关注发私信

友情链接

文江博客

我在 100 维空间中有 2,000,000 个点。如何将它们聚类为 K（例如 1000）个簇？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

我在 100 维空间中有 2,000,000 个点。如何将它们聚类为 K（例如 1000）个簇？

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

離殇

小姐丶请自重

Aik

国产ˉ祖宗

猥琐帝

半仙

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。