100万个对象的层次聚类

发布于 2025-01-03 00:10:00 字数 390 浏览 7 评论 0原文

谁能向我指出一个可以聚类约 100 万个对象的分层聚类工具（最好在 python 中）？我尝试过 hcluster 以及橙色。

hcluster 在处理 18k 对象时遇到了问题。 Orange 能够在几秒钟内对 18k 对象进行集群，但在处理 100k 对象时失败（内存饱和并最终崩溃）。

我在 Ubuntu 11.10 上运行 64 位 Xeon CPU (2.53GHz) 和 8GB RAM + 3GB swap。

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

呆橘 2025-01-10 00:10:00

问题可能是他们会尝试计算完整的 2D 距离矩阵（大约 8 GB，双精度），然后他们的算法无论如何都会在 O(n^3) 时间内运行。

您应该认真考虑使用不同的聚类算法。层次聚类速度很慢，而且结果通常根本不令人信服。特别是对于数百万个对象，您不能仅查看树状图来选择合适的切割。

如果你真的想继续分层集群，我相信 ELKI （尽管是 Java）有一个 < SLINK 的 code>O(n^2) 实现。如果有 100 万个对象，速度应该提高大约 100 万倍。我不知道他们是否也已经有了 CLINK。我不确定除了单链接和完整链接之外，是否真的存在任何其他变体的子O(n^3)算法。

考虑使用其他算法。例如，k-means 可以很好地随对象数量进行缩放（通常也不是很好，除非您的数据非常干净且规则）。在我看来，一旦您对参数有了感觉，DBSCAN 和 OPTICS 就相当不错了。如果您的数据集是低维的，则可以通过适当的索引结构来很好地加速它们。如果您有一个查询时间为 O(log n) 的索引，那么它们的运行时间应该为 O(n log n)。这对于大型数据集来说可以产生巨大的影响。我个人在 110k 图像数据集上使用 OPTICS 没有出现任何问题，因此我可以想象它在您的系统上可以很好地扩展到 100 万张图像。