U-统计量

✍ dations ◷ 2024-12-23 17:57:46 #U-统计量

U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。

U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。

目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。

定义 h ( x 1 , , x r ) : R r R {displaystyle h(x_{1},ldots ,x_{r}):mathbb {R} ^{r}to mathbb {R} } 为一个函数,其具有对称性,即交换任意 x i , x j {displaystyle x_{i},x_{j}} 的位置, h {displaystyle h} 的值保持不变。对随机变量 X 1 , , X n {displaystyle X_{1},ldots ,X_{n}} ,基于 h {displaystyle h} 的U-统计量定义如下:

这里, h ( ) {displaystyle h(cdot )} 称为U-统计量的核函数(Kernel function),而核函数的维数 r {displaystyle r} 称为该U-统计量的度(degree)。

定义 h ( x 1 , , x r ; y 1 , , y s ) : R r + s R {displaystyle h(x_{1},ldots ,x_{r};y_{1},ldots ,y_{s}):mathbb {R} ^{r+s}to mathbb {R} } 为一个函数,其对 X {displaystyle X} Y {displaystyle Y} 分别具有对称性,即交换任意 x i 1 , x i 2 {displaystyle x_{i_{1}},x_{i_{2}}} 的位置或交换任意 y j 1 , y j 2 {displaystyle y_{j_{1}},y_{j_{2}}} 的位置, h {displaystyle h} 的值保持不变(但不能随意交换 x i , y j {displaystyle x_{i},y_{j}} )。对随机变量 X 1 , , X m ; Y 1 , , Y n {displaystyle X_{1},ldots ,X_{m};Y_{1},ldots ,Y_{n}} ,基于 h {displaystyle h} 的两样本U-统计量定义如下:

目前在机器学习中,最常见的情形是 r = s = 1 {displaystyle r=s=1} ,例如能量距离和最大平均差异(MMD)。

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。为表述该定理,定义: μ = E {displaystyle mu =mathbb {E} } 。对所有 1 k r {displaystyle 1leq kleq r} ,定义投影函数:

a k ( x 1 , , x k ) = E μ {displaystyle a_{k}(x_{1},ldots ,x_{k})=mathbb {E} -mu }

然后定义正交化投影函数:

g 1 ( x 1 ) = a 1 ( x 1 ) {displaystyle g_{1}(x_{1})=a_{1}(x_{1})} g 2 ( x 1 , x 2 ) = a 2 ( x 1 , x 2 ) g 1 ( x 1 ) g 2 ( x 2 ) {displaystyle g_{2}(x_{1},x_{2})=a_{2}(x_{1},x_{2})-g_{1}(x_{1})-g_{2}(x_{2})} ,等等,每一个 g k {displaystyle g_{k}} 都定义为相应的 a k {displaystyle a_{k}} 减去之前定义过的所有 g 1 , , g k 1 {displaystyle g_{1},ldots ,g_{k-1}} ,直至最后一个函数 g r {displaystyle g_{r}}

g r ( x 1 , , x r ) = a r ( x 1 , , x r ) j = 1 r 1 1 i 1 < < i j r g j ( x i 1 , , x i j ) {displaystyle g_{r}(x_{1},ldots ,x_{r})=a_{r}(x_{1},ldots ,x_{r})-sum _{j=1}^{r-1}sum _{1leq i_{1}<cdots <i_{j}leq r}g_{j}(x_{i_{1}},ldots ,x_{i_{j}})}

Hoeffding的ANOVA分解定理的内容是:

U n μ = ( n r ) 1 k = 1 r ( n k r k ) 1 i 1 < < i k n g k ( X i 1 , , X i k ) {displaystyle U_{n}-mu ={binom {n}{r}}^{-1}sum _{k=1}^{r}{binom {n-k}{r-k}}cdot sum _{1leq i_{1}<cdots <i_{k}leq n}g_{k}(X_{i_{1}},ldots ,X_{i_{k}})}

所有的正交化投影函数 g k {displaystyle g_{k}} 都满足:

E = 0 {displaystyle mathbb {E} =0}

因此,所有的分解项之间是互不相关的,并且度为 k {displaystyle k} 的分解项之平均的阶为 O p ( n k / 2 ) {displaystyle O_{p}left(n^{-k/2}right)} .

在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:

U n μ = r n i = 1 n g 1 ( X i ) + r ( r 1 ) n ( n 1 ) 1 i < j n g 2 ( X i , X j ) + O p ( n 3 / 2 ) {displaystyle U_{n}-mu ={frac {r}{n}}sum _{i=1}^{n}g_{1}(X_{i})+{frac {r(r-1)}{n(n-1)}}sum _{1leq i<jleq n}g_{2}(X_{i},X_{j})+O_{p}(n^{-3/2})}

同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。


称为“平均成对偏差”。

这正是人们熟知的样本方差 S n 2 {displaystyle S_{n}^{2}}

展开后可以写成一个U-统计量。

相关

  • 1,4-丁二醇1,4-丁二醇(化学式:HOCH2CH2CH2CH2OH)是丁二醇异构体之一,是丁烷的末端二羟基取代物,室温下为无色粘稠液体。工业上,用乙炔与两分子的甲醛反应生成1,4-丁炔二醇再加氢的方法制取1,
  • 英雄联盟全球总决赛英雄联盟全球总决赛(英语:League of Legends World Championship Series,也被称为英雄联盟世界大赛、简称为Worlds)为是由Riot Games公司举行的英雄联盟电子竞技大赛,也是目前全
  • Sabellida见内文缨鳃虫目(学名:Sabellida)是环节动物多毛纲之下的一个目。本目物种皆为滤食性动物,没有口器。 其口前叶已跟围口节(英语:peristomium)融合,还有一环羽毛状的觅食触手。生活于
  • 加略人犹大加略人犹大,又称犹大,天主教翻译为犹达斯依斯加略,加略人西门之子,在《新约》中是耶稣最初的十二门徒之一。受犹太公会三十块银钱贿赂亲吻并背叛耶稣。他的名字常用来指代背叛。
  • 山谷惠里子山谷惠里子(日语:山谷えり子,户籍姓名为:小川惠里子,1950年9月19日-),日本女性政治家,自由民主党党员。现任国家公安委员会委员长(第89、90代)。出身于东京都武藏野市。现任参议院议员(
  • 小武《小武》是中国导演贾樟柯出品的一部独立制片的电影,为北京电影学院学生作业作品。1998年2月18日发行。影片在贾樟柯的家乡山西汾阳的小县城中拍摄,大部分次要演员都是当地人,
  • 戚夫人戚夫人(-前194年),又称戚姬。出身秦末定陶(今山东定陶),汉高帝刘邦宠妃,赵王刘如意生母,汉惠帝、鲁元公主庶母,屡次恃宠而骄企图以庶夺嫡。刘邦死后,戚夫人被吕后虐杀于茅房,死状甚惨。现今的中国北方部分民众奉为厕神。刘邦做汉王时娶了定陶戚姬,十分宠爱,戚姬生刘如意。太子刘盈为人仁爱懦弱,高祖认为他不像自己,常常打算废掉太子改立如意,说“如意像我”。戚姬经常跟从皇上出征关东,日夜哭泣,希望册立自己的儿子为太子。而吕雉年纪大了,常常留守在关中,很少见到皇上,就越发被疏远了。如意被封为赵王,留居长安,有好几次
  • 夏帆夏帆(1991年6月30日-),日本女演员、模特儿,东京都出身、血型A型。经纪公司为星尘传播。“夏帆”为艺名,本名不公开,左撇子。夏帆小学五年级时,和母亲在原宿的表参道逛街时被星尘传播的星探搭话,因母亲为中谷美纪的影迷,当时星尘传播为中谷的所属事务所,因此母亲鼓励夏帆进艺能界。2003年,拍摄关西通讯的广告出道。青少年时期时,为青少年杂志《Pichilemon(日语:ピチレモン)》和偶像杂志《Pure☆Pure(日语:ピュア☆ピュア)》担任平面模特儿,并于2003年7月19日至8月31日期间,以电视节目《
  • 蒙特费拉的玛丽亚蒙特费拉的玛丽亚(1192年-1212年)耶路撒冷王国女王,伊莎贝拉一世与蒙费拉托的科拉多的女儿,1205年登基为耶路撒冷女王,至1212年去世。
  • 泛非颜色泛非颜色指的是起源于泛非主义的两种国旗色彩组合:绿、黄、红和红、黑、绿。绿、黄、红三色最早来自于埃塞俄比亚国旗的颜色,埃塞俄比亚与利比里亚是二十世纪前期非洲仅有的两个独立、非殖民地国家。后来率先独立的加纳亦采用此三色作为国旗颜色。而红、黑、绿三色则是由世界黑人进步协会(英语:Universal Negro Improvement Association and African Communities League)所提倡的泛非颜色。阿散蒂王国比亚法拉共和国贝宁共和国(1967年极短独立)卡宾达共和国(极短