马哈拉诺比斯距离

✍ dations ◷ 2025-05-14 09:34:40 #多变量统计

马哈拉诺比斯距离是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的相似度的方法。与欧氏距离不同的是它考虑到各种特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,因为两者是有关联的)并且是尺度无关的(scale-invariant),即独立于测量尺度。对于一个均值为 μ = ( μ 1 , μ 2 , μ 3 , , μ p ) T {\displaystyle \mu =(\mu _{1},\mu _{2},\mu _{3},\dots ,\mu _{p})^{T}}

其中 σ i {\displaystyle \sigma _{i}} x i {\displaystyle x_{i}} 的标准差。

马哈拉诺比斯距离是基于样本分布的一种距离。物理意义就是在规范化的主成分空间中的欧氏距离。所谓规范化的主成分空间就是利用主成分分析对一些数据进行主成分分解。再对所有主成分分解轴做归一化,形成新的坐标轴。由这些坐标轴张成的空间就是规范化的主成分空间。

换句话说,主成分分析就是把椭球分布的样本改变到另一个空间里,使其成为球状分布。而马哈拉诺比斯距离就是在样本呈球状分布的空间里面所求得的欧式距离。

当然,上面的解释只是对椭球分布而言,对一般分布,只能消除分布的二阶相关性,而不能消除高阶相关性。

相关

  • 氯化汞氯化汞(化学式:HgCl2)俗称升汞,室温下为白色晶体,是实验室常用试剂。可溶于水,加热易升华,可引起汞中毒,因为毒性极大,使用时必须小心。氯化汞为正交晶系,容易升华,具有明显的共价特性
  • 有机质有机物质是由有机化合物所组成的,来自曾经生活过的生物体,如动物或植物在环境中产生的代谢废物和遗体。基本结构是由纤维素、单宁、角质、木质素和不同的蛋白质、脂质和糖类
  • 菱铁矿菱铁矿是一种分布比较广泛的矿物,属铁的碳酸盐矿物,成分为碳酸亚铁(FeCO3)。因为它含有48%的铁和不含有硫或磷,它是一个有价值的铁矿物。锌,镁和锰通常替代铁造成菱铁矿-菱锌矿,菱铁
  • 爱米尔·贝利纳爱米尔·贝利纳(德语:Emile Berliner,1851年5月20日-1929年8月3日),也译作埃米尔·贝林纳、埃米尔·玻里纳、艾米利·伯林纳,德裔美国发明家,以改进电话技术和留声机唱片而知名。贝
  • 明尼苏达大学校友此表列出明尼苏达大学的校友:(1928)
  • Masson三色染色法马森三色染色法(Masson's trichrome stain),是一种用于组织学的染色方法。从皮埃尔·马森(英语:Pierre Masson)(1880–1959年)的原始配方开发而来的新配方具有不同的特定应用,但都适
  • 小臣小臣,先秦时期的官职名,也叫少臣。商代时,一些出身卑微的奴仆、战俘在君主身边执役,被君主赏识而得到要职,掌管占卜、祭祀、田猎、征伐甚至监督众人耕田,就称为“小臣”。伊尹、傅
  • 全国文化信息资源共享工程全国文化信息资源共享工程,简称文化共享工程,是中华人民共和国文化部于2002年发起的一个计划,中国政府称发起这个工程是利用现代高新技术手段,整合中华优秀传统文化和全国各类文
  • 左派自由意志主义左派自由意志主义是一个政治术语,可能指:
  • 群延迟与相位延迟在信号处理中, 群延迟(group delay)是指信号通过被测器件的各正弦分量的振幅包络的时延,并且是各频率分量的函数。 相反,相位延迟(phase delay)是与幅度包络(amplitude envelope)的时