当前位置：文江博客话题详情

K 最近邻算法

发布于 2024-10-16 01:37:56 字数 1455 浏览 13 评论 0原文

原文

分享到QQ

分享到微博

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

需要登录才能够评论，你可以免费注册一个本站的账号。

锦上情书 2024-10-23 01:37:56

应选择这 2 个或更多对象中的哪一个作为第 5 个最近邻居？

这实际上取决于您想要如何实现它。

大多数算法会执行以下三件事之一：

包括所有相等距离的点，因此对于此估计，它们将使用 6 个点，而不是 5 个。
使用两个相等距离的“第一个”找到的点。
从找到的 2 个点中选择一个随机点（通常具有一致的种子，因此结果可重现）。

话虽这么说，大多数基于径向搜索的算法都有一个固有的平稳性假设，在这种情况下，选择上面的哪个选项实际上并不重要。一般来说，从理论上讲，它们中的任何一个都应该提供合理的默认值（特别是因为它们是近似值中最远的点，并且应该具有最低的有效权重）。

回复收藏 0 原文

吝吻 2024-10-23 01:37:56

另一个有趣的选择是使用最近邻，如下所示：

您计算每个类的 5 个最近邻到样本的距离：您与每个类的距离
然后您将获得每个类别的平均距离。
较低的平均距离将是您将分配给样本的类别。

这种方法对于重叠类的数据集是有效的。

回复收藏 0 原文

梦巷 2024-10-23 01:37:56

如果你有另一个距离函数，你可以用它来打破平局。即使是一个糟糕的人也能完成这项工作，如果你有一些启发式的方法，效果会更好。例如，如果您知道用于计算主距离的特征之一更为重要，则仅使用该特征来解决平局问题。

如果不是这种情况，请随机选择。在同一测试集上运行多次程序，以检查随机选择是否重要。

回复收藏 0 原文

红墙和绿瓦 2024-10-23 01:37:56

如果 k=5，则查看前 5 条记录，查看这 5 条记录中最常见的结果。你很可能会得到两对，这会让你陷入困境，这会很困难，因为这样你每对都有 50/50 的机会。

这使得生活充满挑战。那么如何选择 k 的值呢？您可以使用一些指标来分析事后的结果，但没有严格规定 k 必须是什么，所以我会让您自己轻松开始并坚持使用 k=3 而不是 k=5，然后向下我们将研究一些策略，通过查看预测的实际准确性来帮助您优化 k 值。

回复收藏 0 原文

~没有更多了~

关于作者

自我难过

暂无简介

文章

29 人气

关注发私信

友情链接

文江博客

K 最近邻算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

K 最近邻算法

如果你对这篇内容有疑问，欢迎到本站社区发帖提问 参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。

发布评论

评论（4）

关于作者

相关话题

热门标签

推荐作者

alipaysp_snBf0MSZIv

梦断已成空

瞎闹

凯凯我们等你回来

寄意

似梦非梦

友情链接

如果你对这篇内容有疑问，欢迎到本站社区发帖提问参与讨论，获取更多帮助，或者扫码二维码加入 Web 技术交流群。