K-近邻算法

✍ dations ◷ 2025-11-23 08:01:10 #分类算法,搜寻算法,机器学习算法,人工智能

在模式识别领域中,最近邻居法(KNN算法,又译K-近邻算法)是一种用于分类和回归的非参数统计方法。在这两种情况下,输入包含特征空间(英语:Feature Space)(Feature Space)中的个最接近的训练样本。

最近邻居法采用向量空间模型来分类,概念为相同类别的案例,彼此的相似度高,而可以借由计算与已知类别案例之相似度,来评估未知类别案例可能的分类。

K-NN是一种基于实例的学习(英语:instance-based learning),或者是局部近似和将所有计算推迟到分类之后的惰性学习(英语:lazy learning)。k-近邻算法是所有的机器学习算法中最简单的之一。

无论是分类还是回归,衡量邻居的权重都非常有用,使较近邻居的权重比较远邻居的权重大。例如,一种常见的加权方案是给每个邻居权重赋值为1/ d,其中d是到邻居的距离。

邻居都取自一组已经正确分类(在回归的情况下,指属性值正确)的对象。虽然没要求明确的训练步骤,但这也可以当作是此算法的一个训练样本集。

k-近邻算法的缺点是对数据的局部结构非常敏感。本算法与K-平均算法(另一流行的机器学习技术)没有任何关系,请勿与之混淆。

训练样本是多维特征空间向量,其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。

在分类阶段,是一个用户定义的常数。一个没有类别标签的向量(查询或测试点)将被归类为最接近该点的个样本点中最频繁使用的一类。

一般情况下,将欧氏距离作为距离度量,但是这是只适用于连续变量。在文本分类这种离散变量情况下,另一个度量——重叠度量(或海明距离)可以用来作为度量。例如对于基因表达微阵列数据,-NN也与Pearson和Spearman相关系数结合起来使用。通常情况下,如果运用一些特殊的算法来计算度量的话,近邻分类精度可显著提高,如运用大间隔最近邻居或者邻里成分分析法。

“多数表决”分类会在类别分布偏斜时出现缺陷。也就是说,出现频率较多的样本将会主导测试点的预测结果,因为他们比较大可能出现在测试点的K邻域而测试点的属性又是通过邻域内的样本计算出来的。解决这个缺点的方法之一是在进行分类时将样本到个近邻点的距离考虑进去。近邻点中每一个的分类(对于回归问题来说,是数值)都乘以与测试点之间距离的成反比的权重。另一种克服偏斜的方式是通过数据表示形式的抽象。例如,在自组织映射(SOM)中,每个节点是相似的点的一个集群的代表(中心),而与它们在原始训练数据的密度无关。-NN可以应用到SOM中。

如何选择一个最佳的K值取决于数据。一般情况下,在分类时较大的K值能够减小噪声的影响, 但会使类别之间的界限变得模糊。一个较好的K值能通过各种启发式技术(见超参数优化(英语:Hyperparameter optimization))来获取。

噪声和非相关性特征的存在,或特征尺度与它们的重要性不一致会使K近邻算法的准确性严重降低。对于选取和缩放特征来改善分类已经作了很多研究。一个普遍的做法是利用进化算法优化功能扩展,还有一种较普遍的方法是利用训练样本的互信息进行选择特征。

在二元(两类)分类问题中,选取为奇数有助于避免两个分类平票的情形。在此问题下,选取最佳经验值的方法是自助法。

k- 最近邻分类器可以被视为为 k最近邻居分配权重 1 / k {\displaystyle 1/k} 最近邻居法在文件分类方面的效果,如Han等人于2002年尝试利用贪心法,针对文件分类实做可调整权重的k最近邻居法WAkNN(weighted adjusted k nearest neighbor),以促进分类效果;而Li等人于2004年提出由于不同分类的文件本身有数量上有差异,因此也应该依照训练集合中各种分类的文件数量,选取不同数目的最近邻居,来参与分类。

相关

  • 梁赞州梁赞州(俄语:Рязанская область,罗马化:Ryazanskaya oblast)是俄罗斯联邦主体之一,属中央联邦管区。面积39,600平方公里,人口1,227,910(2002年)。首府梁赞,在俄罗斯首
  • 基督教最终获胜米兰敕令(拉丁语:Edictum Mediolanense,英语:Edict of Milan,又译作米兰诏令、米兰谕旨或米兰诏书)是罗马帝国皇帝君士坦丁一世和李锡尼在313年于意大利的米兰颁发的一个宽容基督
  • 文友通讯文友通讯:一份在1950年代出现的油印性小型文学刊物。由陈火泉、廖清秀、锺肇政、锺理和、李荣春、施翠峰、许炳成(笔名:文心)等一群热心文学创作的台籍作家组成。该刊主要的作
  • 广州流花体育馆广州体育馆是广州市一座已被清拆的体育场馆,原位于广州市越秀区流花路与解放北路交界西北角,曾是华南地区最大的体育场馆,亦是当时中国大陆内仅次于北京体育馆的第二大体育馆,为
  • 拉里·斯宾塞拉里·斯宾塞空军上将 (英语:Larry O. Spencer,1954年-)现任美国空军副参谋长,曾在作战、审计等多种部门 担任领导职务,是美军非洲裔上将之一。斯宾塞出生于华盛顿特区,他与家人搬到
  • 辛可宁辛可宁(Cinchonine)是一种提取自正鸡纳树的生物碱。在有机化学中用于不对称合成,例如其衍生物作为不对称迈克尔加成的催化剂。辛可尼定(英语:cinchonidine)是其非对映异构体。
  • 魏道密魏道密(1923年-),号藏之。生于福建福州市。世居福州祖籍河南,为唐名相魏徵之七十六世孙,清闽中名士魏杰之五世孙。为当地望族之后,诗礼传家,幼受熏陶嗜爱绘画自然写生,数十年孜孜不倦
  • 克娄巴特拉·欧律狄刻克娄巴特拉·欧律狄刻(希腊语:Κλεοπάτρα Ευρυδίκη,?—前336年)是公元前4世纪前、中叶马其顿王国的贵妇,马其顿国王腓力二世的第五位或第七位、也是最后一位迎娶
  • 柯召柯召(1910年4月12日-2002年11月8日),男,浙江温岭人,中国数学家,中国科学院院士,四川大学名誉校长。研究领域主要为代数学、数论及组合数学等。1926年至1928年就读于厦门大学预科。19
  • 马其昶马其昶(1855年-1930年),字通伯,晚号抱润翁。清末民初安徽桐城城乡(今城关镇)人。 中国历史学家。出身书香世家,发奋好学,受业于方东树、戴钧衡,光绪间举人。精古文辞,师从方宗诚、吴汝