当前位置：文江博客话题详情

algorithm c++ c cluster-analysis data-mining

非基于密度的数据聚类算法

发布于 2024-09-26 02:03:04 字数 683 浏览 3 评论 0原文

我正在开发一个聚类分析程序，该程序将一组点 S 作为输入，并用它所属的聚类索引来标记每个点。我已经实现了 DBScan 和 OPTICS 算法，它们都按预期工作。然而，这些算法的结果可能会非常不同，具体取决于 MinPts 和 Epsilon 的初始值。我在网上搜索并阅读了大量有关数据挖掘和聚类分析的论文，但我似乎无法找到一种无需 MinPts 和 Epsilon 来确定一个点是否在这样的聚类中即可分析数据的方法。我猜想基于密度的聚类分析不是我的情况。

有谁知道或知道我可以使用不需要这种配置的算法吗？或者只是给我指出正确的方向。欢迎任何帮助。

谢谢！

这是我试图完成的一个学校项目，其中我有一组代表平面上点的二维坐标，我必须确定每个点属于哪个簇。现在我已经使用 OPTICS 完成了这项工作，并且工作正常，但我需要调整 Eps 值，以便我的输出与给定的示例输出相匹配。但由于我没有描述主题中的簇是什么，或者它的特征是什么，所以我不可能仅仅基于点之间的距离，或者给定区域中点的密度。另外，我事先不知道簇的数量，因此我使用 OPTICS 算法。所以在我看来，要么我做得非常错误，要么这个主题中缺少一条重要的信息。而且，我并不是在寻找任何人做我的作业或给我任何源代码，只是一些想法或指导，因为我几乎迷失了如何获得数据集示例中给出的确切结果（我是也不允许得到任何错误的值，如果我这样做，他们认为该项目是失败的，因此不能使用具有误差范围的算法）。

再次感谢，并对这么长的帖子表示歉意。

收藏 0

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

评论（2）

孤单情人 2024-10-03 02:03:04

一般来说，一组点可以通过多种方式分配给簇（例如，它们可以全部分配给一个大簇，或者分为两个或三个），因此您必须有一些参数。

您为什么反对 MinPts 和 Epsilon？如果您不喜欢更改它们时发生的情况，请不要更改它们。严重地。

编辑：
多么奇怪的任务啊！你的聚类必须与他们的完全匹配，没有其他线索？我将假设他们既不是白痴也不是虐待狂，并做出以下猜测：在示例中，存在肉眼可见的“自然”聚类。我说得对吗？如果是这样，那么我们可以通过编程方式设置参数，作为点集中距离的函数。有多少个例子，可以发布一个吗？

编辑：
哈！我就知道！这里有一个规则可以正确地将这种情况划分为簇：找到从任何点到其最近邻居的最大距离，如果任何两个点的距离小于该距离的两倍，则它们属于同一个簇。我敢打赌它也适用于其他情况。

回复收藏 0 原文

不爱素颜 2024-10-03 02:03:04

您可以尝试研究许多其他集群算法。您有概率聚类 (EM)、分区聚类 (KMeans)、层次聚类等等...当然，每种聚类都需要不同类型的配置

另外请务必尝试 Weka，一个开源工具，包含大量机器学习算法（分类、聚类、预处理，...）。我相信它有一个针对所有提到的算法的实现（Java）。

编辑：确定哪种聚类最好的问题非常依赖于领域。这一切都取决于如何在应用程序的上下文中使用集群，这决定了它们的有用程度（此外，您的数据可能有多个自然集群）。

回复收藏 0 原文

~没有更多了~

关于作者

暂无简介

0 文章

0 评论

379 人气

关注发私信

相关话题

热门标签

操作系统程序设计 IT运维 Linux系统管理 JavaScript 服务器应用 solaris C/C++ PHP Shell BSD Vue.js aix Oracle Python HTML 系统管理 HTML5 CSS 前端

推荐作者

亚希

文章 0 评论 0

cyp

文章 0 评论 0

北漠

文章 0 评论 0

11223456

文章 0 评论 0

坠似风落

文章 0 评论 0

游魂

文章 0 评论 0

友情链接

我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的隐私政策了解更多相关信息。单击 接受 或继续使用网站，即表示您同意使用 Cookies 和您的相关数据。

原文