U-统计量

✍ dations ◷ 2025-11-29 09:27:52 #U-统计量

U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。

U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。

目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。

定义 h ( x 1 , , x r ) : R r R {displaystyle h(x_{1},ldots ,x_{r}):mathbb {R} ^{r}to mathbb {R} } 为一个函数,其具有对称性,即交换任意 x i , x j {displaystyle x_{i},x_{j}} 的位置, h {displaystyle h} 的值保持不变。对随机变量 X 1 , , X n {displaystyle X_{1},ldots ,X_{n}} ,基于 h {displaystyle h} 的U-统计量定义如下:

这里, h ( ) {displaystyle h(cdot )} 称为U-统计量的核函数(Kernel function),而核函数的维数 r {displaystyle r} 称为该U-统计量的度(degree)。

定义 h ( x 1 , , x r ; y 1 , , y s ) : R r + s R {displaystyle h(x_{1},ldots ,x_{r};y_{1},ldots ,y_{s}):mathbb {R} ^{r+s}to mathbb {R} } 为一个函数,其对 X {displaystyle X} Y {displaystyle Y} 分别具有对称性,即交换任意 x i 1 , x i 2 {displaystyle x_{i_{1}},x_{i_{2}}} 的位置或交换任意 y j 1 , y j 2 {displaystyle y_{j_{1}},y_{j_{2}}} 的位置, h {displaystyle h} 的值保持不变(但不能随意交换 x i , y j {displaystyle x_{i},y_{j}} )。对随机变量 X 1 , , X m ; Y 1 , , Y n {displaystyle X_{1},ldots ,X_{m};Y_{1},ldots ,Y_{n}} ,基于 h {displaystyle h} 的两样本U-统计量定义如下:

目前在机器学习中,最常见的情形是 r = s = 1 {displaystyle r=s=1} ,例如能量距离和最大平均差异(MMD)。

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。为表述该定理,定义: μ = E {displaystyle mu =mathbb {E} } 。对所有 1 k r {displaystyle 1leq kleq r} ,定义投影函数:

a k ( x 1 , , x k ) = E μ {displaystyle a_{k}(x_{1},ldots ,x_{k})=mathbb {E} -mu }

然后定义正交化投影函数:

g 1 ( x 1 ) = a 1 ( x 1 ) {displaystyle g_{1}(x_{1})=a_{1}(x_{1})} g 2 ( x 1 , x 2 ) = a 2 ( x 1 , x 2 ) g 1 ( x 1 ) g 2 ( x 2 ) {displaystyle g_{2}(x_{1},x_{2})=a_{2}(x_{1},x_{2})-g_{1}(x_{1})-g_{2}(x_{2})} ,等等,每一个 g k {displaystyle g_{k}} 都定义为相应的 a k {displaystyle a_{k}} 减去之前定义过的所有 g 1 , , g k 1 {displaystyle g_{1},ldots ,g_{k-1}} ,直至最后一个函数 g r {displaystyle g_{r}}

g r ( x 1 , , x r ) = a r ( x 1 , , x r ) j = 1 r 1 1 i 1 < < i j r g j ( x i 1 , , x i j ) {displaystyle g_{r}(x_{1},ldots ,x_{r})=a_{r}(x_{1},ldots ,x_{r})-sum _{j=1}^{r-1}sum _{1leq i_{1}<cdots <i_{j}leq r}g_{j}(x_{i_{1}},ldots ,x_{i_{j}})}

Hoeffding的ANOVA分解定理的内容是:

U n μ = ( n r ) 1 k = 1 r ( n k r k ) 1 i 1 < < i k n g k ( X i 1 , , X i k ) {displaystyle U_{n}-mu ={binom {n}{r}}^{-1}sum _{k=1}^{r}{binom {n-k}{r-k}}cdot sum _{1leq i_{1}<cdots <i_{k}leq n}g_{k}(X_{i_{1}},ldots ,X_{i_{k}})}

所有的正交化投影函数 g k {displaystyle g_{k}} 都满足:

E = 0 {displaystyle mathbb {E} =0}

因此,所有的分解项之间是互不相关的,并且度为 k {displaystyle k} 的分解项之平均的阶为 O p ( n k / 2 ) {displaystyle O_{p}left(n^{-k/2}right)} .

在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:

U n μ = r n i = 1 n g 1 ( X i ) + r ( r 1 ) n ( n 1 ) 1 i < j n g 2 ( X i , X j ) + O p ( n 3 / 2 ) {displaystyle U_{n}-mu ={frac {r}{n}}sum _{i=1}^{n}g_{1}(X_{i})+{frac {r(r-1)}{n(n-1)}}sum _{1leq i<jleq n}g_{2}(X_{i},X_{j})+O_{p}(n^{-3/2})}

同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。


称为“平均成对偏差”。

这正是人们熟知的样本方差 S n 2 {displaystyle S_{n}^{2}}

展开后可以写成一个U-统计量。

相关

  • 星形胶细胞星形胶质细胞,也称星状细胞(astrocyte、AS),为神经胶质细胞的一种。星形胶质细胞在大脑中的比例尚不明确。有研究发现,星形胶质细胞的比例因区域而异,占所有神经胶质细胞的20%至40%
  • 睡觉睡眠又俗称睡觉,是一种在哺乳动物、鸟类和鱼类等生物中普遍存在的自然休息状态,此外,在无脊椎动物,例如果蝇中也有这种现象。睡眠的特征包括:减少主动的身体运动,对外界刺激反应减
  • 英国独立广播英国独立广播(United Kingdom Independent Broadcasting,UKIB)是英国的一个由独立电视节目制作公司和播出机构组成的合作组织。英国独立广播的会员包括了独立电视台,17家独立电
  • 牛岗乡牛岗乡,是中华人民共和国河北省保定市易县下辖的一个乡镇级行政单位。牛岗乡下辖以下地区:骆驼峪村、黄路元村、东苇场村、柳树片村、皮岗村、牛岗村、碾子台村、大元村、台底
  • 比微暗沙比微暗沙位于南中国海中沙群岛中沙大环礁东北边缘,西南与中北暗沙相距约6海里,东南与隐矶滩相距约10海里。整个暗沙全部在海面以下,最浅处水深约11米,等深线20米以上面积约40平
  • 汁或汁液是由固体渗出液体的一种流体。不少日常液体中的主要成分为水,将物体中的水抽干成为精华,成为汁液。单论汁在食用的层面上,可以是汁物如味噌汤、出汁等。汁亦可以作为煮
  • 徐建培徐建培(1960年8月-),男,汉族,江苏大丰人,中华人民共和国政治人物,曾任中华人民共和国科学技术部党组成员、秘书长,曾任河北省人民政府副省长,现任河北省政协副主席。1999年8月,任青岛大学校长;2003年1月,任青岛大学党委书记、校长;2003年12月到2010年12月,任青岛大学党委书记。2016年3月,任科学技术部秘书长。2017年3月,任河北省人民政府副省长。2021年2月,任河北省政协副主席。8 副主任☆
  • 拉贾·佩尔韦兹·阿什拉夫拉贾·佩尔韦兹·阿什拉夫(1950年12月26日- ),前巴基斯坦总理。2008年3月至2011年2月在优素福·拉扎·吉拉尼领导的巴基斯坦人民党政府中担任水电部长。2012年4月26日,巴基斯坦最高法院判决吉拉尼藐视法庭罪成立,原因是他拒绝依据最高法院的命令重启针对巴总统扎尔达里的贪污指控调查。6月19日,巴最高法院宣布,由于总理吉拉尼未就其藐视法庭罪的判决提出上诉,最高法院宣布取消其总理资格。人民党为免权力真空,权衡利弊的情况下施出的一个缓兵之计,故提名阿什拉夫接任总理,完成吉拉尼剩下的任期。2013年
  • 胡志军胡志军(1970年7月24日-),是已经退役的中国足球运动员。胡志军身体素质不出色,但是速度突出,曾经夺得1994年第一届甲A联赛的最佳射手,与广州队老拍档彭伟国一起是90年代广东足球的代表人物。1991年吉隆坡巴塞罗那奥运会预选赛对科威特的比赛中,以一脚禁区外左侧的凌空抽射死角享誉足坛。胡志军长年效力于广州队、广州太阳神、广州松日,他是中国职业联赛第一个单场比赛独中四元的球员,一共为广州队攻入36球,曾是广州队史上顶级联赛中入球最多的球员(2009年被拉米雷斯超越)。2000年,胡志军转会上海申花,但是
  • 茨城女子短期大学茨城女子短期大学(日语:茨城女子短期大学/いばらきじょしたんきだいがく  *),简称茨女,是一所位于日本茨城县那珂市的私立短期大学。