约翰逊-林登斯特劳斯定理

✍ dations ◷ 2025-08-18 11:04:59 #约翰逊-林登斯特劳斯定理

约翰逊-林登斯特劳斯定理(Johnson–Lindenstrauss theorem),又称约翰逊-林登斯特劳斯引理(Johnson–Lindenstrauss lemma),是由William Johnson(英语:William_B._Johnson_(mathematician))和Joram Lindenstrauss(英语:Joram_Lindenstrauss)于1984年提出的一个关于降维的著名定理,在现代机器学习,尤其是压缩感知、降维、形状分析(英语:Nonlinear_dimensionality_reduction#Manifold_learning_algorithms)和分布学习(英语:Density_estimation)等领域中有很重要的应用。

这个定理告诉我们,一个高维空间中的点集,可以被线性地镶嵌到低维空间中,同时其空间结构只遭受比较小的形变。约翰逊-林登斯特劳斯定理的证明,还说明了如何用随机投影法(英语:Random_projection)明确地求出这个变换,所用的算法只需要随机多项式时间。当然,降维不是免费的:如果要求形变很少的话,代价(英语:trade-off)是被嵌入的低维空间维数不能很低;反之亦然,如果要求将点集嵌入很低维的空间,那么就不能很好地控制结构形变的程度。

因为能将维数下降到样本量的对数阶,更兼所用的变换是线性的、显式的还可以被快速计算,约翰逊-林登斯特劳斯定理是一个力度非常强的结论。

对任何给定的 ϵ ( 0 , 1 ) {displaystyle epsilon in (0,1)} 以及 N {displaystyle N} 维欧几里德空间中的 m {displaystyle m} 个点 { x 1 , , x m } {displaystyle {x_{1},ldots ,x_{m}}} ,对于任意满足条件 n > ( ϵ 2 / 2 ϵ 3 / 3 ) 1 log m {displaystyle n>(epsilon ^{2}/2-epsilon ^{3}/3)^{-1}log m} 的正整数 n {displaystyle n} ,存在一个线性映射 f : R N R n {displaystyle f:mathbb {R} ^{N}to mathbb {R} ^{n}} ,将这 m {displaystyle m} 个点,从 R N {displaystyle mathbb {R} ^{N}} (维数可能很高的空间)中映射到 R n {displaystyle mathbb {R} ^{n}} (低维空间)中,同时“基本上”保持了点集成员两两之间的距离,即:对于任意两个点 ( x i , x j ) : 1 i < j m {displaystyle (x_{i},x_{j}):1leq i<jleq m} ,都有

更进一步地,这个线性映射 f {displaystyle f} 还可以在随机多项式时间内求出。

约翰逊-林登斯特劳斯定理揭示了一些关于降维映射深刻事实,其中一些还是违反简单直觉的。因此,要想直观地理解这个定理,对初学者来说,可能比从数学式子上读懂证明还要难(反而此定理的证明只用到了比较简单的关于投影的随机误差不等式(英语:Concentration of measure))。举例来说,定理的结论表明,度量形变程度的误差参数 ϵ {displaystyle epsilon } 以及低维空间的维数 n {displaystyle n} 这两个度量降维水准的关键量,均与原始数据所在的空间维数 N {displaystyle N} 或者原始的 m {displaystyle m} 个点具体为何种空间结构无关,这是很不平凡的。

约翰逊-林登斯特劳斯定理是不能被本质性地改进的,即:给定任意正整数 m {displaystyle m} 和误差参数 ϵ {displaystyle epsilon } ,存在某个 N {displaystyle N} 以及 R N {displaystyle mathbb {R} ^{N}} 中的 m {displaystyle m} 个点,这个点集“难以降维”——也就是说,对任何一个满足“基本保持点距”要求(即: ( 1 ϵ ) x i x j 2 2 f ( x i ) f ( x j ) 2 2 ( 1 + ϵ ) x i x j 2 2 {displaystyle (1-epsilon )|x_{i}-x_{j}|_{2}^{2}leq |f(x_{i})-f(x_{j})|_{2}^{2}leq (1+epsilon )|x_{i}-x_{j}|_{2}^{2}} 要对任意 ( i , j ) : 1 i < j n {displaystyle (i,j):1leq i<jleq n} 成立)的线性映射 f : R N R n {displaystyle f:mathbb {R} ^{N}to mathbb {R} ^{n}} ,它用来镶嵌高维数据的那个低维空间(即 R n {displaystyle mathbb {R} ^{n}} ),至少必须具有

这么多的维数。

定理可以用高年级本科生容易理解的方法证明,其思路是证明如下事实:多次独立地重复进行随机投影的试验,每次试验中随机抽取的投影 f 0 : R N R n {displaystyle f_{0}:mathbb {R} ^{N}to mathbb {R} ^{n}} 都有至少 1 / n {displaystyle 1/n} 的概率符合定理中对映射 f {displaystyle f} 全部的要求(显然,验证任何一个 f 0 {displaystyle f_{0}} 是否符合这些要求只需 O ( n 2 ) {displaystyle O(n^{2})} 时间),因此只要重复该独立实验 ω ( n ) {displaystyle omega (n)} 次就能以逼近100%的概率产生至少一个符合要求的映射 f {displaystyle f}

相关

  • 工业技术研究院工业技术研究院(简称工研院,英文简写:ITRI),总院位于新竹县竹东镇,为中华民国经济部成立的公设财团法人,在台北市、新竹市、新竹县、台中市、南投县、台南市等地皆设有院区或办事处
  • CGI GroupCGI集团(CGI Group Inc.) 是一家总部位于加拿大蒙特利尔的跨国公司,业务涉及IT咨询和外包服务及其相关产业。2012年以27亿加元的价格收购英国IT服务公司Logica,因此成为世界第五
  • 德国联邦国防军海军德国联邦国防军海军(德语:Deutsche Marine)是德意志联邦共和国的海军部队。德国海军的历史可追溯至德意志统一前。最早作为独立战斗单位出现的是普鲁士海军,随后成为北德意志邦
  • 斯坦尼斯拉夫·莫纽什科斯坦尼斯拉夫·莫纽什科*(波兰语:Stanisław Moniuszko,1819年5月5日-1872年6月4日),波兰作曲家、指挥家。1819年生于明斯克附近的乌贝尔庄园。1837年到柏林学习音乐,回国后在维尔
  • 广东茂名健康职业学院广东茂名健康职业学院(英文:Guangdong Maoming Health Vocational College),简称茂健职,创办于2015年,是广东省茂名市一所公办全日制普通高等职业院校,亦是目前粤西地区唯一一所医
  • 布伦克湖坐标:54°00′34″N 10°19′53″E / 54.0094°N 10.3313°E / 54.0094; 10.3313布伦克湖(德语:Blunker See),是德国的湖泊,位于该国北部石勒苏益格-荷尔斯泰因州,由塞格贝格县负责
  • 马里·儒勒·杜白蕾马里·儒勒·杜白蕾(法语:Marie Jules Dupré,1813年11月25日-1881年2月8日),越南史料称之为游悲黎,法国军人、殖民官员。杜白蕾出生在留尼汪岛。1831年毕业于法国海军学院(École n
  • 克雷塔福拉塔山坐标:46°32′N 12°44′E / 46.533°N 12.733°E / 46.533; 12.733克雷塔福拉塔山(意大利语:Creta Forata),是意大利的山峰,位于该国东北部,属于卡尔尼克阿尔卑斯山脉的一部分,海拔
  • 凯蒂·斯万凯蒂·斯万(英语:Katie Swan,1999年3月24日-)是英国职业网球女运动员,2013年转职业。她的WTA生涯最高单打排名为第432(2016年4月31日)。
  • 赤木完次赤木完次(日语:赤木 完次/あかぎ かんじ ,1933年4月3日-),日本前男子短跑运动员,曾代表日本参加1956年夏季奥运会短跑比赛。他曾获得1954年亚洲运动会男子400米金牌。