马哈拉诺比斯距离

✍ dations ◷ 2025-11-30 01:36:12 #多变量统计

马哈拉诺比斯距离是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为 μ = ( μ 1 , μ 2 , μ 3 , , μ p ) T {\displaystyle \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}}

其中 σ i {\displaystyle \sigma _{i}} x i {\displaystyle x_{i}} 的标准差。

马哈拉诺比斯距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

换句话说,主成分分析就是把椭球分布的样本改变到另一个空间里,使其成为球状分布。而马哈拉诺比斯距离就是在样本呈球状分布的空间里面所求得的欧式距离。

当然,上面的解释只是对椭球分布而言,对一般分布,只能消除分布的二阶相关性,而不能消除高阶相关性。

相关

  • 1970年波拉气旋1970年波拉气旋是一场发生于1970年11月12日的热带气旋。它毁灭性地袭击了东巴基斯坦(现今孟加拉国)和印度西孟加拉邦。迄今为止,它仍然是最为致命的热带气旋,也是最致命的自然灾
  • 临高话临高语,又称临高话,是海南岛北部临高人所使用的一种语言,属于侗台语系,使用人数约60万。尽管临高人被认为是汉族人,但临高话并非汉语的一种。临高语一般分成东西两种方言:15-17个
  • 橙皮橙皮又称黄果皮、理陈皮,是芸香科植物香橙的果皮。剥下的果皮经过晒干或烘干而成。香橙含有大量的维生素A,可作为健胃剂。橙皮很早就是中药的一种,味辛微苦,入脾、肺二经。治咳
  • 汉平帝汉平帝刘衎(前9年-6年2月3日),原名刘箕子,后改名.mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-
  • 冬季奥林匹克运动会俯式冰橇比赛俯式冰橇在1928年,1948年和2002年奥运会成为正式比赛项目。 维基共享资源中与冬季奥林匹克运动会俯式冰橇比赛相关的分类
  • 利奥王朝东罗马帝国从457年利奥一世登基时开始由利奥王朝统治,直至518年皇帝阿纳斯塔修斯一世去世。 利奥王朝的统治刚好与西罗马帝国的衰落、崩塌与最终灭亡处于同一时期。在西部帝
  • 移民罗马尼亚移民罗马尼亚是指人们迁徙至罗马尼亚,并在当地永久定居的过程。尽管罗马尼亚对外来移民来说并不是一个受欢迎的目的地,但近年来当地的移民人数也不断上升。该国的移民来源国家
  • 汤玛斯·曼尼诺汤玛斯·曼尼诺(英语:Thomas Michael Menino,1942年12月27日-2014年10月30日)是美国马萨诸塞州波士顿市市长。梅尼诺于1993年当选,是美国任期最长的现任市长,目前担任第五个任期。
  • 舞力全开 (安立奎·伊格莱西亚斯歌曲)《舞力全开》(西班牙语:Bailando)是西班牙歌手安立奎·伊格莱西亚斯的一支单曲,收录在他的第十张录音室专辑《烈爱(英语:Sex and Love)》中。该单曲由安立奎与古巴艺人德契墨·布宜
  • 勒内·雅里-德洛热勒内·雅里-德洛热(法语:René Jarry-Desloges,1868年2月1日-1951年6月1日),法国 业余天文学家,曾建立自己的天文台。他观测了行星,并且声称证实了乔凡尼·斯基亚帕雷利给出的的水星