马哈拉诺比斯距离

✍ dations ◷ 2025-12-05 19:25:31 #多变量统计

马哈拉诺比斯距离是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为 μ = ( μ 1 , μ 2 , μ 3 , , μ p ) T {\displaystyle \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}}

其中 σ i {\displaystyle \sigma _{i}} x i {\displaystyle x_{i}} 的标准差。

马哈拉诺比斯距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

换句话说,主成分分析就是把椭球分布的样本改变到另一个空间里,使其成为球状分布。而马哈拉诺比斯距离就是在样本呈球状分布的空间里面所求得的欧式距离。

当然,上面的解释只是对椭球分布而言,对一般分布,只能消除分布的二阶相关性,而不能消除高阶相关性。

相关

  • 吡咯赖胺酸吡咯赖氨酸(Pyrrolysine;简称:Pyl 或 O)是一种自然存在而少见的编码氨基酸,其编码为UAG(琥珀),该密码子通常为终止密码子。这是人们到目前为止发现的第22种,也是最后一种编码氨基酸(第
  • 黄进兴黄进兴(Chin-shing Huang,1950年-),笔名吴咏慧,台湾历史学家,国立台湾大学历史学系文学学士、文学硕士,美国哈佛大学历史学博士。2008年膺选中央研究院院士。现任中央研究院副院长、
  • 茂林国家风景区坐标:22°45′08″N 120°38′07″E / 22.7522086°N 120.6353354°E / 22.7522086; 120.6353354 茂林国家风景区位于台湾高雄市与屏东县交界处。辖区南北狭长,地处中央山脉尾
  • 无颔类无颌总纲(学名:Agnatha)是脊索动物下的其中一个总纲。该纲动物是无成对偶肢和上下颌的低等脊椎动物。本纲动物生活于淡水和海水中,有些种类会回游。大多数鱼类的嘴具有铰合的双
  • 华法令华法林(英语:Warfarin,又名华法令、可迈丁或灭鼠灵)是一种只可口服的抗凝血素,学名为苄丙酮香豆素,一般都以苄丙酮香豆素钠来储存及处方,较著名的品牌有Coumadin®。由于其化学结构
  • 袋鼠岛坐标:35°50′S 137°20′E / 35.833°S 137.333°E / -35.833; 137.333坎加鲁岛(英语:Kangaroo Island,又译袋鼠岛)是澳大利亚继塔斯马尼亚和梅尔维尔岛之后的第三大岛屿,面积440
  • 乔治·麦克劳伦乔治·B·麦克莱伦(英语:George B. McClellan 1826年12月3日-1885年10月29日)是一位19世纪的美国军人,土木工程师,铁路公司经营者,政治活动家和作家。麦克莱伦毕业于西点军校,曾服役
  • S/mileage 精选辑完全版①《S/mileage 精选辑完全版①》(スマイレージ ベストアルバム完全版①)是日本的女子偶像组合S/mileage的第1张精选辑,于2012年5月30日发行。唱片公司为hachama。
  • 童受童受论师(梵语:Kumāralabdha,生卒年不详),音译为拘摩罗逻多、鸠摩罗罗陀、鸠摩罗驮、究摩罗陀、鸠摩罗多,意译作童受、童首、豪童、童子。印度部派佛教著名论师,出自说一切有部,与
  • 油柑窝组油柑窝组(英语:Youganwo Fm)的时代属始新世-渐新世,地层分布于广东、广西及海南岛地区。1948年陈国达命名油柑窝层,1963年斐文中等改称为油柑窝组,命名剖面位于广东茂名油柑窝附近