如何选择 Canopy 聚类的 T1 和 T2 阈值？

发布于 2024-12-01 14:31:56 字数 408 浏览 2 评论 0原文

我正在尝试与 K 均值一起实现 Canopy 聚类算法。我在网上做了一些搜索，说使用 Canopy 聚类将初始起点输入 K 均值，问题是，在 Canopy 聚类中，您需要为 Canopy 指定 2 个阈值：T1 和 T2，其中内部阈值中的点与该树冠紧密相关，而较宽阈值中的点与该树冠联系较少。这些阈值或距树冠中心的距离是如何确定的？

问题上下文：

我试图解决的问题是，我有一组数字，例如 [1,30] 或 [1,250]，其大小约为 50。可以有重复的元素，并且它们可以是浮点数，如下所示好吧，比如 8、17.5、17.5、23、66……我想找到最佳的簇，或者数字集的子集。

因此，如果使用 K 均值进行 Canopy 聚类是一个不错的选择，那么我的问题仍然存在：如何找到 T1、T2 值？如果这不是一个好的选择，是否有更好、更简单但有效的算法可供使用？

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

但可醉心 2024-12-08 14:31:56

也许天真地，我从某种频谱估计的角度看待这个问题。假设我有 10 个向量。我可以计算所有对之间的距离。在这种情况下，我会得到 45 个这样的距离。将它们绘制为不同距离范围内的直方图。例如，10 个距离在 0.1 到 0.2 之间，5 个距离在 0.2 到 0.3 之间，等等，这样您就可以了解向量之间的距离是如何分布的。根据此信息，您可以选择 T1 和 T2（例如，选择它们以便覆盖人口最多的距离范围）。

当然，这对于大型数据集来说是不切实际的 - 但您可以只采取随机样本或其他样本，以便您至少知道 T1 和 T2 的大概情况。使用 Hadoop 之类的工具，您可以对大量点进行某种事先的谱估计。如果您尝试聚类的所有传入数据都以大致相同的方式分布，那么您只需获取 T1 和 T2 一次，然后将它们修复为所有未来运行的常量。

回复收藏 0 原文