大间隔最近邻居

✍ dations ◷ 2025-07-10 07:42:40 #大间隔最近邻居

大间隔最近邻居(Large margin nearest neighbor (LMNN))分类算法是统计学的一种机器学习算法。该算法是在 k {displaystyle k} 近邻分类其中学习一种欧式距离度量函数。该度量函数优化的目标是:对于一个输入 x i {displaystyle x_{i}} k {displaystyle k} 个近邻都属于同一类别,而不同类别的样本与 x i {displaystyle x_{i}} 保持一定大的距离。 k {displaystyle k} 近邻规则是模式识别领域广泛使用的一种简单有效的方法。它的效果的好坏只依赖于确定最近邻的距离度量。基于欧式距离度量学习函数的大间隔最近邻居分类算法能够很好的改善 k {displaystyle k} 近邻算法分类效果。

大间隔最近邻居算法的主要想法就是通过学习一种距离度量使得在一个新的转换空间中,对于一个输入 x i {displaystyle x_{i}} k {displaystyle k} 个近邻都属于同一类别,而不同类别的样本与 x i {displaystyle x_{i}} 保持一定大的距离。如果该想法能够实现则留一(LOO)分类错误率将会最小化。该算法的最主要的任务就是求得满足条件的线性空间转换矩阵 M {displaystyle M} 。定义有类别标签的训练数据集为: D = { ( x 1 , y 1 ) , , ( x n , y n ) } R d × C {displaystyle D={({vec {x}}_{1},y_{1}),dots ,({vec {x}}_{n},y_{n})}subset R^{d}times C} , 其中类别标签集为: C = { 1 , , c } {displaystyle C={1,dots ,c}} . 我们的目标是学习一种用来估计如下平方距离的线性变换 M {displaystyle M} d ( x i , x j ) = ( x i x j ) M ( x i x j ) {displaystyle d({vec {x}}_{i},{vec {x}}_{j})=({vec {x}}_{i}-{vec {x}}_{j})^{top }mathbf {M} ({vec {x}}_{i}-{vec {x}}_{j})}

其中 M {displaystyle M} 是半正定矩阵。欧氏距离是该距离度量的特例( M {displaystyle M} 为单位矩阵的形式)。该度量算法也被称作是马氏距离度量(Mahalanobis Metric)。图1显示了,该算法的学习过程:

对于每一个输入样本 x i {displaystyle x_{i}} ,除了要知道其类别标签 y i {displaystyle y_{i}} 外,还需要确定其 k {displaystyle k} 个目标邻居,即 k {displaystyle k} 个同类别的输入,并且希望通过上式求出的距离最小。当缺乏先验知识的话,属于同类别的目标邻居可以由欧氏距离确定。则属于同类别的 k {displaystyle k} 个的输入即为目标邻居。

对于任何一个输入样本 x i {displaystyle x_{i}} ,其入侵样本是指与其最近邻的 k {displaystyle k} 个样本中与其不同类的样本。该算法在对训练样本学习过程中应尽可能的使入侵样本的数目达到最小化。

大间隔最近邻居算法的转换矩阵 M {displaystyle M} 可以通过半定规划得到优化。该算法的目标是:对于每一个输入样本,其 k {displaystyle k} 个目标邻居应尽可能的接近,而那些入侵样本应尽可能的远离该输入样本(即与其保持一定大的距离间隔)。图1显示了该算法的学习过程,通过学习使得输入向量 x i {displaystyle x_{i}} 被其目标近邻包围。对于一个测试样本,我们取 k {displaystyle k} 为3的最近邻规则。第一个优化的目标是实现输入样本 x i {displaystyle x_{i}} 与其目标近邻的平均距离的最小化: i , j N i d ( x i , x j ) {displaystyle sum _{i,jin N_{i}}d({vec {x}}_{i},{vec {x}}_{j})} .

第二个优化的目标是使输入样本 x i {displaystyle x_{i}} 到其目标邻居的距离与其到入侵近邻的距离至少保持1个单位的间隔。该约束可以表示为: i , j N i , l , y l y i d ( x i , x j ) + 1 d ( x i , x l ) {displaystyle forall _{i,jin N_{i},l,y_{l}neq y_{i}}d({vec {x}}_{i},{vec {x}}_{j})+1leq d({vec {x}}_{i},{vec {x}}_{l})}

因此,最终的优化问题可以表示为:

其中 M {displaystyle M} 为半定矩阵。

相关

  • 青蒿素联合疗法抗疟药(antimalarial drug)是指用来预防或者治疗疟疾的药物。代表药物有奎宁、氯喹、青蒿素等。抗疟药如进一步按功用细分,尚可分为控制疟疾症状的抗疟药、防止疟疾复发的抗疟
  • 雷声雷声(1984年3月7日-),出生于天津,中国男子击剑运动员。1987年随同任职工程师的父亲到广州工作和定居。雷声6岁时,因作为工程师的父亲从天津港被调往黄埔港而随家迁户广州,在广州长
  • 五来欣造五来欣造(ごらい きんぞう,1875年6月-1944年8月1日),日本政治学者、文学家,茨城县人。曾任《读卖新闻》主笔, 明治大学教授、 早稻田大学教授、皇化联盟代表。曾用笔名五来素川、斩
  • 成锡庆成锡庆(?-?),湖北人,清朝政治人物。举人出身。道光九年,接替陈经。担任江苏宜兴县知县。后由景寿春接任。成锡庆曾于1836年接替杨本初任奉贤县知县一职,1837年由景昌接任。
  • 张楚张楚可以指:
  • 埃里克·恩斯特龙埃里克·恩斯特龙(英语:Eric Engstrom,1965年1月25日-2020年12月1日),美国软件工程师,任职微软期间与亚历克斯·圣约翰(英语:Alex St. John)和克雷格·艾斯勒共同负责开发用于Microsoft Windows的应用程序接口DirectX,为Windows成为可行游戏平台铺平道路,促成游戏主机品牌Xbox的开发。1965年,恩斯特龙在美国华盛顿州奥罗维尔出生,其后于华盛顿州立大学肄业。离开大学后做过许多零活,自学计算机编程。恩斯特龙在朋友的建议下加入微软,起初在消费者支
  • 发罗拉州发罗拉州(阿尔巴尼亚语:Vlorë)位于阿尔巴尼亚西南部的亚得里亚海畔,由发罗拉区、达尔维那区、萨兰达区州所组成,与费里州、吉罗卡斯特相邻。
  • 鬼女鬼女(日语:きじょ)是日本民间传说中的一种女鬼。一般来说,鬼女是因为宿业及怨念而化为鬼的人类女性、尤其是年轻的女性被如此称呼,外表为老太婆的则被称为鬼婆(日语:おにばば)或山姥。她们在日本古典书籍中的物语、昔话(日语:昔話)、传说、艺能(日语:芸能)等都很常见,其中著名的有信州戸隠村(日语:戸隠村)(现在长野县长野市的鬼无里村(日语:鬼無里村))的《红叶传说》、铃鹿山(日语:鈴鹿山脈)的《铃鹿御前》。安达原的鬼婆(黑冢)虽然被称呼为鬼婆、但也被认为是鬼女。另外土佐国(现在的高知县)妖怪谭中的《土佐妖怪草纸
  • 恩里科·贝雷恩里科·贝雷(意大利语:Enrico Berrè,1992年11月10日-),意大利男子击剑运动员。他曾代表意大利参加2020年夏季奥林匹克运动会击剑比赛,结果获得男子团体佩剑银牌。
  • 亚当·阿姆斯特朗亚当·阿姆斯特朗(英语:Adam Armstrong,1997年2月10日-)是英国的一位足球运动员,在场上司职前锋。现效力于英超球队南安普顿。他从小就是一位纽卡斯尔联球迷。2014年1月28日,他在纽卡斯尔联对诺里奇城的英超赛事中首次被排入大名单,这是他首次被排入英超赛事的大名单。在2014年3月15日纽卡斯尔联战胜富勒姆的英超比赛中,阿姆斯特朗在86分钟替补出场,这是他首次参加英超赛事。这也使得他成为纽卡斯尔联队史上第二年起的参加英超赛事的球员。阿姆斯特朗也是英格兰U16和U17国家队的队员。