约翰逊-林登斯特劳斯定理

✍ dations ◷ 2025-06-23 07:41:50 #约翰逊-林登斯特劳斯定理

约翰逊-林登斯特劳斯定理(Johnson–Lindenstrauss theorem),又称约翰逊-林登斯特劳斯引理(Johnson–Lindenstrauss lemma),是由William Johnson(英语:William_B._Johnson_(mathematician))和Joram Lindenstrauss(英语:Joram_Lindenstrauss)于1984年提出的一个关于降维的著名定理,在现代机器学习,尤其是压缩感知、降维、形状分析(英语:Nonlinear_dimensionality_reduction#Manifold_learning_algorithms)和分布学习(英语:Density_estimation)等领域中有很重要的应用。

这个定理告诉我们,一个高维空间中的点集,可以被线性地镶嵌到低维空间中,同时其空间结构只遭受比较小的形变。约翰逊-林登斯特劳斯定理的证明,还说明了如何用随机投影法(英语:Random_projection)明确地求出这个变换,所用的算法只需要随机多项式时间。当然,降维不是免费的:如果要求形变很少的话,代价(英语:trade-off)是被嵌入的低维空间维数不能很低;反之亦然,如果要求将点集嵌入很低维的空间,那么就不能很好地控制结构形变的程度。

因为能将维数下降到样本量的对数阶,更兼所用的变换是线性的、显式的还可以被快速计算,约翰逊-林登斯特劳斯定理是一个力度非常强的结论。

对任何给定的 ϵ ( 0 , 1 ) {displaystyle epsilon in (0,1)} 以及 N {displaystyle N} 维欧几里德空间中的 m {displaystyle m} 个点 { x 1 , , x m } {displaystyle {x_{1},ldots ,x_{m}}} ,对于任意满足条件 n > ( ϵ 2 / 2 ϵ 3 / 3 ) 1 log m {displaystyle n>(epsilon ^{2}/2-epsilon ^{3}/3)^{-1}log m} 的正整数 n {displaystyle n} ,存在一个线性映射 f : R N R n {displaystyle f:mathbb {R} ^{N}to mathbb {R} ^{n}} ,将这 m {displaystyle m} 个点,从 R N {displaystyle mathbb {R} ^{N}} (维数可能很高的空间)中映射到 R n {displaystyle mathbb {R} ^{n}} (低维空间)中,同时“基本上”保持了点集成员两两之间的距离,即:对于任意两个点 ( x i , x j ) : 1 i < j m {displaystyle (x_{i},x_{j}):1leq i<jleq m} ,都有

更进一步地,这个线性映射 f {displaystyle f} 还可以在随机多项式时间内求出。

约翰逊-林登斯特劳斯定理揭示了一些关于降维映射深刻事实,其中一些还是违反简单直觉的。因此,要想直观地理解这个定理,对初学者来说,可能比从数学式子上读懂证明还要难(反而此定理的证明只用到了比较简单的关于投影的随机误差不等式(英语:Concentration of measure))。举例来说,定理的结论表明,度量形变程度的误差参数 ϵ {displaystyle epsilon } 以及低维空间的维数 n {displaystyle n} 这两个度量降维水准的关键量,均与原始数据所在的空间维数 N {displaystyle N} 或者原始的 m {displaystyle m} 个点具体为何种空间结构无关,这是很不平凡的。

约翰逊-林登斯特劳斯定理是不能被本质性地改进的,即:给定任意正整数 m {displaystyle m} 和误差参数 ϵ {displaystyle epsilon } ,存在某个 N {displaystyle N} 以及 R N {displaystyle mathbb {R} ^{N}} 中的 m {displaystyle m} 个点,这个点集“难以降维”——也就是说,对任何一个满足“基本保持点距”要求(即: ( 1 ϵ ) x i x j 2 2 f ( x i ) f ( x j ) 2 2 ( 1 + ϵ ) x i x j 2 2 {displaystyle (1-epsilon )|x_{i}-x_{j}|_{2}^{2}leq |f(x_{i})-f(x_{j})|_{2}^{2}leq (1+epsilon )|x_{i}-x_{j}|_{2}^{2}} 要对任意 ( i , j ) : 1 i < j n {displaystyle (i,j):1leq i<jleq n} 成立)的线性映射 f : R N R n {displaystyle f:mathbb {R} ^{N}to mathbb {R} ^{n}} ,它用来镶嵌高维数据的那个低维空间(即 R n {displaystyle mathbb {R} ^{n}} ),至少必须具有

这么多的维数。

定理可以用高年级本科生容易理解的方法证明,其思路是证明如下事实:多次独立地重复进行随机投影的试验,每次试验中随机抽取的投影 f 0 : R N R n {displaystyle f_{0}:mathbb {R} ^{N}to mathbb {R} ^{n}} 都有至少 1 / n {displaystyle 1/n} 的概率符合定理中对映射 f {displaystyle f} 全部的要求(显然,验证任何一个 f 0 {displaystyle f_{0}} 是否符合这些要求只需 O ( n 2 ) {displaystyle O(n^{2})} 时间),因此只要重复该独立实验 ω ( n ) {displaystyle omega (n)} 次就能以逼近100%的概率产生至少一个符合要求的映射 f {displaystyle f}

相关

  • 保守治疗保守治疗,亦称为保守疗法(conservative therapy),指相对于有创操作(即有创伤的操作,如手术)的疗法,如药物治疗、物理治疗等。
  • 硝酸钕硝酸钕是一种无机化合物,化学式为Nd(NO3)3。硝酸钕可以将氧化钕、氢氧化钕或碳酸钕溶于硝酸得到:所得溶液经过小心蒸发可以得到水合硝酸钕,其中六水合物最常见。将六水合物继续
  • 奇迹年奇迹年(拉丁语:Annus mirabilis)通常是指完成了重大发明或发现的年份,最早是形容1666年。当时,约翰·德莱顿为伦敦大火得到遏制及英国在海战中击败荷兰而创作了长诗《奇迹年》,而
  • 管统管统,东汉末年人物,袁绍长子袁谭的部将。管统担任东莱郡(治今山东省烟台市龙口市)太守。建安八年(203年),袁谭进攻袁尚失败后,刘询起兵反袁谭,各城纷纷响应。袁谭叹息:“今举州背叛,岂
  • 韩朝江韩朝江(?-?),字顺甫,陕西醴泉县(今礼泉县)人,军籍,明朝政治人物。嘉靖二十三年(1544年)甲辰科第三甲第一百六十六名进士。嘉靖十一年(1532年)任山西高平县知县。累官山西按察使。曾祖韩英;祖
  • 阴谋与爱情《阴谋与爱情》(德语:Kabale und Liebe),是1784年弗里德里希·席勒的重要戏剧作品。五幕话剧,直接取材于德国现实。这个剧本以现实主义的手法反映了当时市民阶级和封建贵族之间的
  • 第一航空6560号班机空难 除特别注明外,此条目或章节的时间均以协调世界时(UTC)为准。第一航空6560号班机于2011年8月20日,坠毁在加拿大努纳福特坚毅湾(英语:Resolute, Nunavut)附近。机上15名乘客或机组
  • 蛇夫座蛇夫座从地球看位于武仙座以南,天蝎座和人马座以北,银河的西侧。蛇夫座是星座中惟一与其他星座-巨蛇座直接连在一起,同时蛇夫座也是唯一同时横跨天球赤道、银道和黄道的星座。蛇夫座既大又宽,形状长方,天球赤道正好斜穿过这个长方形。尽管蛇夫座跨越的银河很短,但银河系中心方向就在离蛇夫座不远的人马座内。银河在这里有一块突出的部分,形成了银河最宽的一个区域。古代蛇夫座属于天蝎座,由于天蝎尾部亮星过于偏南,使得蛇夫的脚无处可放,因此将这一部分星空以及与天蝎体形无关的部分连同一段黄道带从天蝎座分出画为蛇夫座。以下为蛇夫座在
  • 高正高正可以指:
  • 岳连娥岳连娥(?-),中国退役女子手球运动员。曾代表中国国家队参加1996年夏季奥林匹克运动会女子手球比赛,最终队伍获得第五名。