K 近邻(k-NearestNeighbor)

发布于 2024-06-06 11:53:09 字数 1370 浏览 27 评论 0

K 最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的 k 个最相似(即特征空间中最邻近) 的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN 算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

KNN 方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于 KNN 方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN 方法较其他方法更为适合。

例子(电影分类)

现在我们的任务是利用 knn 给最后一条记录进行分类

电影名称打斗次数接吻次数电影类型
California Man3104Romance
He’s Not Really into Dudes2100Romance
Beautiful Woman181Romance
Kevin Longblade10110Action
Robo Slayer 3000995Action
Amped II982Action
未知1890Unknown

算法步骤

对未知类别属性对数据集中对每个点依次执行以下操作:
(1)计算已知类别数据集中对点与当前点之间对距离;
(2)按照距离递增次序排序;
(3)选取与当前点距离最小对 k 个点;
(4)确定前 k 个点所在类别出现频率;
(5)返回前 k 个点出现频率最高对类别作为当前点对预测分类。

K-NN 计算点和点之间对距离,下图可帮助理解:

如果你对这篇内容有疑问,欢迎到本站社区发帖提问 参与讨论,获取更多帮助,或者扫码二维码加入 Web 技术交流群。

扫码二维码加入Web技术交流群

发布评论

需要 登录 才能够评论, 你可以免费 注册 一个本站的账号。
列表为空,暂无数据

关于作者

弃爱

暂无简介

文章
评论
28 人气
更多

推荐作者

櫻之舞

文章 0 评论 0

弥枳

文章 0 评论 0

m2429

文章 0 评论 0

野却迷人

文章 0 评论 0

我怀念的。

文章 0 评论 0

    我们使用 Cookies 和其他技术来定制您的体验包括您的登录状态等。通过阅读我们的 隐私政策 了解更多相关信息。 单击 接受 或继续使用网站,即表示您同意使用 Cookies 和您的相关数据。
    原文