U-统计量

✍ dations ◷ 2025-07-02 11:19:43 #U-统计量

U-统计量是统计学中一类特定的、具有对称性的统计量,它在估计理论中扮演重要角色。名称中的“ U”为无偏(unbiased)之意。在初等统计学中,U-统计量与最小方差无偏估计量 (UMVUE) 有密切联系。

U-统计量的一个重要性是,对概率分布来说,其可估计参数的最小方差无偏估计量 是一个U-统计量。 因此通过研究U-统计量的一般性质,可以系统地了解这些估计量的统计学性质。

U-统计量在非参数统计中尤其重要,不少用于估计和统计检验的统计量,在形式上都是U-统计量。U-统计量通常具有良好的渐近正态性,这方便了基于它的统计推断。 近年来,U-统计量在研究复杂的随机过程和随机网络类型数据的随机性质方面,发挥了作用。

目前,统计学家们对U-统计量性质的了解,几乎全都基于Hoeffding发表于1948年的经典论文。在这篇论文里,Hoeffding给出了U-统计量最重要的性质——它的ANOVA分解。

定义 h ( x 1 , , x r ) : R r R {displaystyle h(x_{1},ldots ,x_{r}):mathbb {R} ^{r}to mathbb {R} } 为一个函数,其具有对称性,即交换任意 x i , x j {displaystyle x_{i},x_{j}} 的位置, h {displaystyle h} 的值保持不变。对随机变量 X 1 , , X n {displaystyle X_{1},ldots ,X_{n}} ,基于 h {displaystyle h} 的U-统计量定义如下:

这里, h ( ) {displaystyle h(cdot )} 称为U-统计量的核函数(Kernel function),而核函数的维数 r {displaystyle r} 称为该U-统计量的度(degree)。

定义 h ( x 1 , , x r ; y 1 , , y s ) : R r + s R {displaystyle h(x_{1},ldots ,x_{r};y_{1},ldots ,y_{s}):mathbb {R} ^{r+s}to mathbb {R} } 为一个函数,其对 X {displaystyle X} Y {displaystyle Y} 分别具有对称性,即交换任意 x i 1 , x i 2 {displaystyle x_{i_{1}},x_{i_{2}}} 的位置或交换任意 y j 1 , y j 2 {displaystyle y_{j_{1}},y_{j_{2}}} 的位置, h {displaystyle h} 的值保持不变(但不能随意交换 x i , y j {displaystyle x_{i},y_{j}} )。对随机变量 X 1 , , X m ; Y 1 , , Y n {displaystyle X_{1},ldots ,X_{m};Y_{1},ldots ,Y_{n}} ,基于 h {displaystyle h} 的两样本U-统计量定义如下:

目前在机器学习中,最常见的情形是 r = s = 1 {displaystyle r=s=1} ,例如能量距离和最大平均差异(MMD)。

Hoeffding的ANOVA分解定理是现代U-统计量理论的基础。为表述该定理,定义: μ = E {displaystyle mu =mathbb {E} } 。对所有 1 k r {displaystyle 1leq kleq r} ,定义投影函数:

a k ( x 1 , , x k ) = E μ {displaystyle a_{k}(x_{1},ldots ,x_{k})=mathbb {E} -mu }

然后定义正交化投影函数:

g 1 ( x 1 ) = a 1 ( x 1 ) {displaystyle g_{1}(x_{1})=a_{1}(x_{1})} g 2 ( x 1 , x 2 ) = a 2 ( x 1 , x 2 ) g 1 ( x 1 ) g 2 ( x 2 ) {displaystyle g_{2}(x_{1},x_{2})=a_{2}(x_{1},x_{2})-g_{1}(x_{1})-g_{2}(x_{2})} ,等等,每一个 g k {displaystyle g_{k}} 都定义为相应的 a k {displaystyle a_{k}} 减去之前定义过的所有 g 1 , , g k 1 {displaystyle g_{1},ldots ,g_{k-1}} ,直至最后一个函数 g r {displaystyle g_{r}}

g r ( x 1 , , x r ) = a r ( x 1 , , x r ) j = 1 r 1 1 i 1 < < i j r g j ( x i 1 , , x i j ) {displaystyle g_{r}(x_{1},ldots ,x_{r})=a_{r}(x_{1},ldots ,x_{r})-sum _{j=1}^{r-1}sum _{1leq i_{1}<cdots <i_{j}leq r}g_{j}(x_{i_{1}},ldots ,x_{i_{j}})}

Hoeffding的ANOVA分解定理的内容是:

U n μ = ( n r ) 1 k = 1 r ( n k r k ) 1 i 1 < < i k n g k ( X i 1 , , X i k ) {displaystyle U_{n}-mu ={binom {n}{r}}^{-1}sum _{k=1}^{r}{binom {n-k}{r-k}}cdot sum _{1leq i_{1}<cdots <i_{k}leq n}g_{k}(X_{i_{1}},ldots ,X_{i_{k}})}

所有的正交化投影函数 g k {displaystyle g_{k}} 都满足:

E = 0 {displaystyle mathbb {E} =0}

因此,所有的分解项之间是互不相关的,并且度为 k {displaystyle k} 的分解项之平均的阶为 O p ( n k / 2 ) {displaystyle O_{p}left(n^{-k/2}right)} .

在大多数应用中,一个U-统计量的ANOVA分解中最重要的是前一项或前两项。根据分解项的性质,可以得到如下的两项ANOVA分解式:

U n μ = r n i = 1 n g 1 ( X i ) + r ( r 1 ) n ( n 1 ) 1 i < j n g 2 ( X i , X j ) + O p ( n 3 / 2 ) {displaystyle U_{n}-mu ={frac {r}{n}}sum _{i=1}^{n}g_{1}(X_{i})+{frac {r(r-1)}{n(n-1)}}sum _{1leq i<jleq n}g_{2}(X_{i},X_{j})+O_{p}(n^{-3/2})}

同时,分解定理也指出了应该如何正确地一阶逼近U-统计量的方差,和对其进行t-标准化。


称为“平均成对偏差”。

这正是人们熟知的样本方差 S n 2 {displaystyle S_{n}^{2}}

展开后可以写成一个U-统计量。

相关

  • 颈动脉在解剖学中,总颈动脉是负责供应头颈部充氧血最主要的动脉,左总颈动脉直接由主动脉发出,右总颈动脉由头臂动脉干发出。二者在颈部时分叉为外颈动脉和内颈动脉。左和右总颈动脉位
  • 苯并三唑苯并三唑是由一个苯环与一个1,2,3-三唑环稠合而成的双环含氮杂环化合物。白色到浅粉色针状结晶粉末。微溶于冷水,溶于热水、甲醇、乙醇、乙醚、丙酮、苯、甲苯、氯仿及二甲基
  • 陶启圣陶启胜(1883年-1911年10月11日),或作陶启圣,清末湖北人,新军陆军第八镇工程第八营后队第二哨哨长(排长),1911年武昌起义中,第一个被杀的清军人物。1911年10月10日,革命党人刘复基、彭楚
  • 阿尔弗雷德·希尔阿尔弗雷德·弗朗西斯·希尔,CMG,OBE(英语:Alfred Francis Hill,1869年12月16日-1960年10月30日),澳大利亚作曲家、指挥家,生于墨尔本,早年在新西兰生活。曾在莱比锡学习音乐,并在莱比
  • 弗雷德里克·伊德斯坦姆弗雷德里克·伊德斯坦(瑞典语:Knut Fredrik Idestam;1838年10月28日-1916年4月8日),诺基亚重要领导人兼创办人。1865年5月,弗雷德里克得到在芬兰坦佩雷建立造纸厂的许可,该厂于1866
  • 发布版本通知发布版本通知(或发布通知)(Release Notes),是指当软件有版本发布(Release)时,一并附在文件上藉以说明软件内容的文件。对软件使用者而言,发布通知是一个重要的版本控制工具,能借此
  • 台标台标,亦称台徽,是电视台的象征标志。台标通常悬挂在电视画面上,或绘在记者的话筒上。台标象征电视台的广播本质。中国大陆的台标一般在电视画面的左上角。英国、日本则大多表示
  • 李修善李修善(David Hill,1840年-1896年),英国循道公会在华传教士。1840年,李修善出生于英格兰约克郡,在里士满接受神学训练。成为牧师以后,1865年,他被英国循道公会派往中国湖北省传教。18
  • 欧拉-拉格朗日方程欧拉-拉格朗日方程(英语:Euler-Lagrange equation)为变分法中的一条重要方程。它是一个二阶偏微分方程。它提供了求泛函的临界值(平稳值)函数,换句话说也就是求此泛函在其定义域的
  • 杜忻恬杜忻恬(1986年12月17日-),台湾台南市人,台湾女艺人、台湾女歌手,妈妈是高雄美浓的客家人。曾经参加三立台湾台歌唱选秀节目《21世纪新人歌唱排行榜》儿童组通过20关;成年后先后参加民视歌唱选秀节目《明日之星Super Star》与《台湾那么旺Taiwan NO.1》,分别拿下前者赛制改变后第一位过10关的摘星盟主,与后者明星组25位参赛者中唯一卫冕20关过关者;2017年曾代表台湾到马来西亚参加“欢喜唱响全球”并荣获全球第二名。曾经做过餐饮业员工、牙科助理、驻唱歌手,现为女艺人、发片歌手。2020年