大数据集上的聚类

发布于 2024-10-27 20:03:13 字数 248 浏览 8 评论 0原文

我正在尝试对一个大（千兆字节）数据集进行聚类。为了进行聚类，您需要每个点到每个其他点的距离，因此您最终会得到一个 N^2 大小的距离矩阵，在我的数据集的情况下，该距离矩阵的大小约为艾字节。当然，Matlab 中的 Pdist 会立即崩溃；）

有没有办法首先对大数据的子集进行聚类，然后对相似的聚类进行一些合并？

我不知道这是否有帮助，但数据是固定长度的二进制字符串，所以我使用汉明距离（距离= string1 XOR string2）计算它们的距离。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

逆夏时光 2024-11-03 20:03:13

来自的好方法的简化版本
Tabei 等人，所有对相似性搜索中的单排序与多排序< /a>,
对于与 Hammingdist 1 的对来说：对

前 32 位上的所有位字符串进行排序
，查看前 32 位全部相同的字符串块；
这些块将是相对较小的
pdist 每个块的 Hammingdist( left 32 ) 0 + Hammingdist( the rest ) <= 1。

这会错过例如 32/128 的附近对的分数
汉明分布（左 32）1 + 汉明分布（其余）0。
如果您确实想要这些，请使用“first 32”重复上述内容 -> “最后32”。

该方法可以扩展。
以 4 个 32 位字为例，Hammingdist <= 2；不匹配必须像其中之一一样分裂
2000 0200 0020 0002 1100 1010 1001 0110 0101 0011,
所以其中2个单词一定是0，排序相同。

（顺便说一句，sketchsort-0.0.7.tar 是 99% src/boost/, build/, .svn/ 。）

回复收藏 0 原文

寄居者 2024-11-03 20:03:13

先对它们进行排序怎么样？也许类似于修改后的合并排序？您可以从适合内存的数据集块开始执行正常排序。

一旦获得排序后的数据，就可以迭代地进行聚类。也许保留 N-1 个点的滚动质心，并与读入的第 N 个点进行比较。然后，根据您的簇距离阈值，您可以将其合并到当前簇中或启动一个新簇。

回复收藏 0 原文

·深蓝 2024-11-03 20:03:13

LMW-tree 项目中的 EM-tree 和 K-tree 算法可以聚类如此大的问题更大。我们最新的结果是将 7.33 亿个网页聚类成 600,000 个集群。 EM 树还有一个流式变体，其中每次迭代的数据集都是从磁盘流式传输的。

此外，这些算法可以直接对位串进行聚类，其中所有聚类代表和数据点都是位串，并且使用的相似性度量是汉明距离。这最小化了找到的每个簇内的汉明距离。

回复收藏 0 原文

~没有更多了~

关于作者

浪菊怪哟

暂无简介

文章

26 人气

关注发私信

友情链接

文江博客

大数据集上的聚类

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

大数据集上的聚类

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（3）

关于作者

相关话题

热门标签

推荐作者

燃烧我的卡路李先生

qq_2gSKZM

∞梦里开花

qq_IklFPL

迷途知返

深海不蓝

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。