首页 >

K-近邻算法

✍ dations ◷ 2025-12-06 14:38:54 #分类算法,搜寻算法,机器学习算法,人工智能

在模式识别领域中，最近邻居法（KNN算法，又译K-近邻算法）是一种用于分类和回归的非参数统计方法。在这两种情况下，输入包含特征空间（英语：Feature Space）（Feature Space）中的个最接近的训练样本。

最近邻居法采用向量空间模型来分类，概念为相同类别的案例，彼此的相似度高，而可以借由计算与已知类别案例之相似度，来评估未知类别案例可能的分类。

K-NN是一种基于实例的学习（英语：instance-based learning），或者是局部近似和将所有计算推迟到分类之后的惰性学习（英语：lazy learning）。k-近邻算法是所有的机器学习算法中最简单的之一。

无论是分类还是回归，衡量邻居的权重都非常有用，使较近邻居的权重比较远邻居的权重大。例如，一种常见的加权方案是给每个邻居权重赋值为1/ d，其中d是到邻居的距离。

邻居都取自一组已经正确分类（在回归的情况下，指属性值正确）的对象。虽然没要求明确的训练步骤，但这也可以当作是此算法的一个训练样本集。

k-近邻算法的缺点是对数据的局部结构非常敏感。本算法与K-平均算法（另一流行的机器学习技术）没有任何关系，请勿与之混淆。

训练样本是多维特征空间向量，其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。

在分类阶段，是一个用户定义的常数。一个没有类别标签的向量（查询或测试点）将被归类为最接近该点的个样本点中最频繁使用的一类。

一般情况下，将欧氏距离作为距离度量，但是这是只适用于连续变量。在文本分类这种离散变量情况下，另一个度量——重叠度量（或海明距离）可以用来作为度量。例如对于基因表达微阵列数据，-NN也与Pearson和Spearman相关系数结合起来使用。通常情况下，如果运用一些特殊的算法来计算度量的话，近邻分类精度可显著提高，如运用大间隔最近邻居或者邻里成分分析法。

“多数表决”分类会在类别分布偏斜时出现缺陷。也就是说，出现频率较多的样本将会主导测试点的预测结果，因为他们比较大可能出现在测试点的K邻域而测试点的属性又是通过邻域内的样本计算出来的。解决这个缺点的方法之一是在进行分类时将样本到个近邻点的距离考虑进去。近邻点中每一个的分类（对于回归问题来说，是数值）都乘以与测试点之间距离的成反比的权重。另一种克服偏斜的方式是通过数据表示形式的抽象。例如，在自组织映射（SOM）中，每个节点是相似的点的一个集群的代表（中心），而与它们在原始训练数据的密度无关。-NN可以应用到SOM中。

如何选择一个最佳的K值取决于数据。一般情况下，在分类时较大的K值能够减小噪声的影响，但会使类别之间的界限变得模糊。一个较好的K值能通过各种启发式技术（见超参数优化（英语：Hyperparameter optimization））来获取。

噪声和非相关性特征的存在，或特征尺度与它们的重要性不一致会使K近邻算法的准确性严重降低。对于选取和缩放特征来改善分类已经作了很多研究。一个普遍的做法是利用进化算法优化功能扩展，还有一种较普遍的方法是利用训练样本的互信息进行选择特征。

在二元（两类）分类问题中，选取为奇数有助于避免两个分类平票的情形。在此问题下，选取最佳经验值的方法是自助法。

k- 最近邻分类器可以被视为为 k最近邻居分配权重 $1/k$ 最近邻居法在文件分类方面的效果，如Han等人于2002年尝试利用贪心法，针对文件分类实做可调整权重的k最近邻居法WAkNN（weighted adjusted k nearest neighbor），以促进分类效果；而Li等人于2004年提出由于不同分类的文件本身有数量上有差异，因此也应该依照训练集合中各种分类的文件数量，选取不同数目的最近邻居，来参与分类。

相关

金刚杵金刚杵（梵语：गदा वज्र，转写：gadā vájra），gadā音译作嘎达，意译杵；也称金刚（梵语：वज्र，转写：vájra），音译缚日啰、伐折啰、跋折啰、
泰国南部叛乱泰国泰国南部动乱（泰语：ความไม่สงบในชายแดนภาคใต้ของประเทศไทย；马来语：Pemberontakan di Selatan Thailand）是泰国南部三府（北大年府、惹拉
布鲁岛布鲁岛是印度尼西亚马鲁古省的热带小岛，位于安汶岛和斯兰岛以西，面积9,505平方千米，是马鲁古群岛的第三大岛屿，2012年人口约206,840，其中80%居民住在沿海的平原。岛中部有拉纳湖
二硫化钠二硫化钠是一种无机化合物，化学式为Na2S2。二硫化钠可由硫化钠和硫反应，或者金属钠和硫在液氨中反应得到。二硫化钠是浅黄色固体，具有潮解性。加热时，它的颜色变深，并在400 °C变
卢于逑卢于逑（？－），中国钢铁材料专家。浙江鄞县（今宁波）人。1949年，加入中国共产党。1951年，毕业于北洋大学（今天津大学）冶金系。1957年，获得苏联第聂伯苏联全国钢管研究所技术科学副博士学位。
玛利亚·帕塞卡玛利亚·帕塞卡（俄语：Мария Валерьевна Пасека，英语：Maria Paseka，1995年7月19日－），俄罗斯女子竞技体操运动员，出生于俄罗斯莫斯科。2012年伦敦奥运会女子团体
闪电熔岩闪电熔岩是天然造成的玻璃长管。当闪电击中泥土或沙，就可能令它们瞬间融化，然后又凝固，便会形成闪电熔岩，因此闪电熔岩的形状多是长条状，和闪电的路径相近。闪电熔岩长可达数米。
以色列－马来西亚关系以色列－马来西亚关系（马来语：Hubungan Israel–Malaysia、希伯来语：יחסי ישראל-מלזיה 、英语：Israel–Malaysia relations），指的是以色列和马来西亚之间的贸易与文化
灯蛾科灯蛾科（Hypercompe）是鳞翅目大鳞翅亚目夜蛾总科中的一个大科，包含目前世界上的1.1万种飞蛾，其中的6000多种为新热带种。以下为灯蛾科里比较常见的种：Giant Leopard Moth, Magpie
牵正散牵正散属于中医方剂的治风剂，出自《仁斋直指方》，由3味中药组成，是用以治疗口僻（又称口㖞）的主要方剂，症状可见口眼㖞斜，半边颜面瘫痪，鼻唇沟歪斜不正，一侧嘴角下垂，一只眼不能闭合，流