约翰逊-林登斯特劳斯定理

✍ dations ◷ 2025-07-27 01:35:13 #约翰逊-林登斯特劳斯定理

约翰逊-林登斯特劳斯定理(Johnson–Lindenstrauss theorem),又称约翰逊-林登斯特劳斯引理(Johnson–Lindenstrauss lemma),是由William Johnson(英语:William_B._Johnson_(mathematician))和Joram Lindenstrauss(英语:Joram_Lindenstrauss)于1984年提出的一个关于降维的著名定理,在现代机器学习,尤其是压缩感知、降维、形状分析(英语:Nonlinear_dimensionality_reduction#Manifold_learning_algorithms)和分布学习(英语:Density_estimation)等领域中有很重要的应用。

这个定理告诉我们,一个高维空间中的点集,可以被线性地镶嵌到低维空间中,同时其空间结构只遭受比较小的形变。约翰逊-林登斯特劳斯定理的证明,还说明了如何用随机投影法(英语:Random_projection)明确地求出这个变换,所用的算法只需要随机多项式时间。当然,降维不是免费的:如果要求形变很少的话,代价(英语:trade-off)是被嵌入的低维空间维数不能很低;反之亦然,如果要求将点集嵌入很低维的空间,那么就不能很好地控制结构形变的程度。

因为能将维数下降到样本量的对数阶,更兼所用的变换是线性的、显式的还可以被快速计算,约翰逊-林登斯特劳斯定理是一个力度非常强的结论。

对任何给定的 ϵ ( 0 , 1 ) {displaystyle epsilon in (0,1)} 以及 N {displaystyle N} 维欧几里德空间中的 m {displaystyle m} 个点 { x 1 , , x m } {displaystyle {x_{1},ldots ,x_{m}}} ,对于任意满足条件 n > ( ϵ 2 / 2 ϵ 3 / 3 ) 1 log m {displaystyle n>(epsilon ^{2}/2-epsilon ^{3}/3)^{-1}log m} 的正整数 n {displaystyle n} ,存在一个线性映射 f : R N R n {displaystyle f:mathbb {R} ^{N}to mathbb {R} ^{n}} ,将这 m {displaystyle m} 个点,从 R N {displaystyle mathbb {R} ^{N}} (维数可能很高的空间)中映射到 R n {displaystyle mathbb {R} ^{n}} (低维空间)中,同时“基本上”保持了点集成员两两之间的距离,即:对于任意两个点 ( x i , x j ) : 1 i < j m {displaystyle (x_{i},x_{j}):1leq i<jleq m} ,都有

更进一步地,这个线性映射 f {displaystyle f} 还可以在随机多项式时间内求出。

约翰逊-林登斯特劳斯定理揭示了一些关于降维映射深刻事实,其中一些还是违反简单直觉的。因此,要想直观地理解这个定理,对初学者来说,可能比从数学式子上读懂证明还要难(反而此定理的证明只用到了比较简单的关于投影的随机误差不等式(英语:Concentration of measure))。举例来说,定理的结论表明,度量形变程度的误差参数 ϵ {displaystyle epsilon } 以及低维空间的维数 n {displaystyle n} 这两个度量降维水准的关键量,均与原始数据所在的空间维数 N {displaystyle N} 或者原始的 m {displaystyle m} 个点具体为何种空间结构无关,这是很不平凡的。

约翰逊-林登斯特劳斯定理是不能被本质性地改进的,即:给定任意正整数 m {displaystyle m} 和误差参数 ϵ {displaystyle epsilon } ,存在某个 N {displaystyle N} 以及 R N {displaystyle mathbb {R} ^{N}} 中的 m {displaystyle m} 个点,这个点集“难以降维”——也就是说,对任何一个满足“基本保持点距”要求(即: ( 1 ϵ ) x i x j 2 2 f ( x i ) f ( x j ) 2 2 ( 1 + ϵ ) x i x j 2 2 {displaystyle (1-epsilon )|x_{i}-x_{j}|_{2}^{2}leq |f(x_{i})-f(x_{j})|_{2}^{2}leq (1+epsilon )|x_{i}-x_{j}|_{2}^{2}} 要对任意 ( i , j ) : 1 i < j n {displaystyle (i,j):1leq i<jleq n} 成立)的线性映射 f : R N R n {displaystyle f:mathbb {R} ^{N}to mathbb {R} ^{n}} ,它用来镶嵌高维数据的那个低维空间(即 R n {displaystyle mathbb {R} ^{n}} ),至少必须具有

这么多的维数。

定理可以用高年级本科生容易理解的方法证明,其思路是证明如下事实:多次独立地重复进行随机投影的试验,每次试验中随机抽取的投影 f 0 : R N R n {displaystyle f_{0}:mathbb {R} ^{N}to mathbb {R} ^{n}} 都有至少 1 / n {displaystyle 1/n} 的概率符合定理中对映射 f {displaystyle f} 全部的要求(显然,验证任何一个 f 0 {displaystyle f_{0}} 是否符合这些要求只需 O ( n 2 ) {displaystyle O(n^{2})} 时间),因此只要重复该独立实验 ω ( n ) {displaystyle omega (n)} 次就能以逼近100%的概率产生至少一个符合要求的映射 f {displaystyle f}

相关

  • 无人这是一个国际空间站的无人发射任务列表,载人发射任务并没有包括在其中(参见国际空间站载人发射任务列表)。粗体为运送组件飞行。在国际空间站运行初期,大部分无人发射任务是由俄
  • 加拉帕戈斯群岛野鸟加拉巴哥群岛 (厄瓜多尔属) 在世界动物地理分区上属于新热带区。约有160种鸟类被记录,其中约25种为特有种。(于2007年全部Nesomimus属的雀鸟归入Mimus属)
  • 努希尔·戈瓦迪亚努希尔·戈瓦迪亚(Noshir Gowadia,1944年4月11日-)美籍印度裔工程师,多国间谍,曾为诺斯洛普·格鲁门公司工作,参与研制B-2隐形轰炸机。2005年因间谍指控被逮捕,后被指控向中国以及德
  • 萨莉·朱厄尔萨莉·朱厄尔(Sally Jewell,1956年2月21日-)是英国出生的美国企业家,第51任美国内政部长,在贝拉克·奥巴马任内被指派,她是盖尔·诺顿以来第二位担任此职务的女性。朱厄尔之前担任
  • 唐世良唐世良(1397年-?),字得章,直隶常州府武进县人,民籍。明朝政治人物。进士出身。应天府乡试中举。宣德八年(1433年),参加癸丑科会试,得贡士第二十二名。殿试登进士第三甲第五十二名,任行在
  • 饭岛三智饭岛三智(日语:飯島 三智/いいじま みち  ?,1958年2月20日-)是日本一名女性企业家、演艺经纪人。她是Culen公司的代表董事,也曾是杰尼斯梦想公司的前代表董事。 杰尼斯事务所曾属
  • 大卫·沙逊大卫·沙逊(,1792年10月-1864年11月7日),是1817年到1829年之间的巴格达首席财政官、孟买商人、孟买犹太人社团领袖。大卫·沙逊出生于巴格达犹太人社团传统上的领袖Nasi家庭。他
  • 射雕英雄传角色列表上官剑南——铁掌帮第十三代帮主,裘千仞之师父,故事开始时已去世。江南七怪——以柯镇恶为首,是郭靖的开山师父。武功不算高,却亦为英雄侠义之士。江南七怪分别是:除柯镇恶和张
  • STS-92STS-92是历史上第九十八次航天飞机任务,也是发现号航天飞机的第二十八次太空飞行。
  • 1397年