U-统计量

✍ dations ◷ 2025-07-30 01:56:49 #U-统计量

U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。

U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。

目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。

定义 h ( x 1 , , x r ) : R r R {displaystyle h(x_{1},ldots ,x_{r}):mathbb {R} ^{r}to mathbb {R} } 为一个函数,其具有对称性,即交换任意 x i , x j {displaystyle x_{i},x_{j}} 的位置, h {displaystyle h} 的值保持不变。对随机变量 X 1 , , X n {displaystyle X_{1},ldots ,X_{n}} ,基于 h {displaystyle h} 的U-统计量定义如下:

这里, h ( ) {displaystyle h(cdot )} 称为U-统计量的核函数(Kernel function),而核函数的维数 r {displaystyle r} 称为该U-统计量的度(degree)。

定义 h ( x 1 , , x r ; y 1 , , y s ) : R r + s R {displaystyle h(x_{1},ldots ,x_{r};y_{1},ldots ,y_{s}):mathbb {R} ^{r+s}to mathbb {R} } 为一个函数,其对 X {displaystyle X} Y {displaystyle Y} 分别具有对称性,即交换任意 x i 1 , x i 2 {displaystyle x_{i_{1}},x_{i_{2}}} 的位置或交换任意 y j 1 , y j 2 {displaystyle y_{j_{1}},y_{j_{2}}} 的位置, h {displaystyle h} 的值保持不变(但不能随意交换 x i , y j {displaystyle x_{i},y_{j}} )。对随机变量 X 1 , , X m ; Y 1 , , Y n {displaystyle X_{1},ldots ,X_{m};Y_{1},ldots ,Y_{n}} ,基于 h {displaystyle h} 的两样本U-统计量定义如下:

目前在机器学习中,最常见的情形是 r = s = 1 {displaystyle r=s=1} ,例如能量距离和最大平均差异(MMD)。

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。为表述该定理,定义: μ = E {displaystyle mu =mathbb {E} } 。对所有 1 k r {displaystyle 1leq kleq r} ,定义投影函数:

a k ( x 1 , , x k ) = E μ {displaystyle a_{k}(x_{1},ldots ,x_{k})=mathbb {E} -mu }

然后定义正交化投影函数:

g 1 ( x 1 ) = a 1 ( x 1 ) {displaystyle g_{1}(x_{1})=a_{1}(x_{1})} g 2 ( x 1 , x 2 ) = a 2 ( x 1 , x 2 ) g 1 ( x 1 ) g 2 ( x 2 ) {displaystyle g_{2}(x_{1},x_{2})=a_{2}(x_{1},x_{2})-g_{1}(x_{1})-g_{2}(x_{2})} ,等等,每一个 g k {displaystyle g_{k}} 都定义为相应的 a k {displaystyle a_{k}} 减去之前定义过的所有 g 1 , , g k 1 {displaystyle g_{1},ldots ,g_{k-1}} ,直至最后一个函数 g r {displaystyle g_{r}}

g r ( x 1 , , x r ) = a r ( x 1 , , x r ) j = 1 r 1 1 i 1 < < i j r g j ( x i 1 , , x i j ) {displaystyle g_{r}(x_{1},ldots ,x_{r})=a_{r}(x_{1},ldots ,x_{r})-sum _{j=1}^{r-1}sum _{1leq i_{1}<cdots <i_{j}leq r}g_{j}(x_{i_{1}},ldots ,x_{i_{j}})}

Hoeffding的ANOVA分解定理的内容是:

U n μ = ( n r ) 1 k = 1 r ( n k r k ) 1 i 1 < < i k n g k ( X i 1 , , X i k ) {displaystyle U_{n}-mu ={binom {n}{r}}^{-1}sum _{k=1}^{r}{binom {n-k}{r-k}}cdot sum _{1leq i_{1}<cdots <i_{k}leq n}g_{k}(X_{i_{1}},ldots ,X_{i_{k}})}

所有的正交化投影函数 g k {displaystyle g_{k}} 都满足:

E = 0 {displaystyle mathbb {E} =0}

因此,所有的分解项之间是互不相关的,并且度为 k {displaystyle k} 的分解项之平均的阶为 O p ( n k / 2 ) {displaystyle O_{p}left(n^{-k/2}right)} .

在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:

U n μ = r n i = 1 n g 1 ( X i ) + r ( r 1 ) n ( n 1 ) 1 i < j n g 2 ( X i , X j ) + O p ( n 3 / 2 ) {displaystyle U_{n}-mu ={frac {r}{n}}sum _{i=1}^{n}g_{1}(X_{i})+{frac {r(r-1)}{n(n-1)}}sum _{1leq i<jleq n}g_{2}(X_{i},X_{j})+O_{p}(n^{-3/2})}

同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。


称为“平均成对偏差”。

这正是人们熟知的样本方差 S n 2 {displaystyle S_{n}^{2}}

展开后可以写成一个U-统计量。

相关

  • 世界科技城市联盟世界科技城市联盟(World Technopolis Association),在韩国大田市成立,有30个国家共63个会员城市,2010年曾于台湾新竹市举行会议。世界科技城市联盟的会员大会每两年举办一次,提供
  • 有色人种有色人种 (英语:Colored)是美国或加拿大的曾用词汇,始于北美的殖民时代,指来自撒哈拉沙漠以南非洲的非裔美国人和美洲原住民。现在这个词汇被视为带有种族歧视色彩,不再是政治正确
  • 里兹·阿迈德里兹·阿迈德(英语:Riz Ahmed,1982年12月1日-)是一名英国男演员,歌手和巴基斯坦裔运动参与者。1982年,阿迈德出生于英国英格兰伦敦市温布利区,是一个英国籍巴基斯坦人,他的父母原居于
  • 新泽西州同性婚姻新泽西州同性婚姻自2013年10月21日已在法律上被认可。法院裁决该州把婚姻限制在不同性别的人之间的法律作废。就在同一天,州长宣布撤回其对法院裁决的上诉,使得同性婚姻法律成
  • 恰塔卡利卡普尔恰塔卡利卡普尔(Chata Kalikapur),是印度西孟加拉邦South Twentyfour Parganas县的一个城镇。总人口20087(2001年)。该地2001年总人口20087人,其中男性10296人,女性9791人;0—6岁人
  • 杰尼斯·阿布利亚津杰尼斯·米哈伊洛维奇·阿布利亚津(俄语:Денис Михайлович Аблязин,1992年8月3日-)生于奔萨州奔萨,是一名俄罗斯男子竞技体操运动员。阿布利亚津曾接触过冰球、小轮车等项目,然而他在这些项目并没有太出色的表现,后来他在体操项目上取得不错的成绩之后便决定在该项目上坚持下来。阿布利亚津的妻子是前体操选手Ksenia Semyonova,两人于2016年9月结婚。2017年1月,两人的儿子出生。
  • 索科托州索科托州(英文:Sokoto State)是尼日利亚36州之一,首府索科托.
  • 威尼斯会堂威尼斯兄弟会是意大利威尼斯形成的互助宗教团体的广义称呼,在意大利原文(Scuole Grandi)中意为“大社团”。最早是在十三世纪的时候,威尼斯普通市民组成了慈善性质的宗教组织。在威尼斯的历史中,这些兄弟会发挥了极其重要的作用,也对音乐的发展有着推动,“提琴”一词最早便是用来指代十六世纪在这里学习的乐手们。不同于贸易性质的公会组织,威尼斯兄弟会接受了来自各种行业中的威尼斯公民。同时,区别于威尼斯议会对于身份和家族的考量,这些兄弟会对所有公民一视同仁,甚至不允许贵族名门担任领导性质的工作。此处对于“公民”
  • 谢丽尔·伯纳德谢丽尔·伯纳德(英语:Cheryl Bernard,1966年6月30日-),加拿大女子冰壶运动员。她曾代表加拿大参加2010年和2018年冬季奥林匹克运动会冰壶比赛,其中2010年冬季奥运会获得一枚银牌。
  • 赵谂赵谂(1079年-1102年),渝州南部(今重庆南川、綦江一带)僚人。父亲赵庭臣,归顺朝廷,被赐姓赵。赵谂不满宋哲宗贬黜苏轼,与张怀素暗中抨击,赵谂自称天子,并私立年号龙兴(隆兴)。绍圣元年,赵谂二十岁登甲戌科进士第二名,当时毕渐为状元,因印字模糊,被宣报人读称毕斩赵谂。赵谂官居国子博士,阶奉议郎(从六品上)。宋徽宗崇宁元年(1102年),还乡探视父母时,被人密告私立年号之事为蓄意谋反。赵谂被捕入狱,不久被诛,父母、妻儿均逐外流放。宋徽宗赵佶将改渝州为恭州。1189年,恭王赵惇即位为宋光宗,改恭州为重庆府