维数灾难

✍ dations ◷ 2025-06-30 17:10:08 #维数灾难

维数灾难(英语:Curse of dimensionality,又名维度的诅咒)是一个最早由美国应用数学家理查德·贝尔曼在考虑优化问题时首次提出来的术语,用来描述当(数学)空间维度增加时,分析和组织高维空间(通常有成百上千维),因体积指数增加而遇到各种问题场景。这样的难题在低维空间中不会遇到,如物理空间通常只用三维来建模。

举例来说,100个平均分布的点能把一个单位区间以每个点距离不超过0.01采样;而当维度增加到10后,如果以相邻点距离不超过0.01小方格采样一单位超正方体,则需要1020 个采样点:所以,这个10维的超正方体也可以说是比单位区间大1018倍。(这个是理查德·贝尔曼所举的例子)

在很多领域中,如采样、组合数学、机器学习和数据挖掘都有提及到这个名字的现象。这些问题的共同特色是当维数提高时,空间的体积提高太快,因而可用数据变得很稀疏。稀疏性对于任何要求有统计学意义的方法而言都是一个问题,为了获得在统计学上正确并且有可靠的结果,用来支撑这一结果所需要的数据量通常随着维数的提高而呈指数级增长。而且,在组织和搜索数据时也有赖于检测对象区域,这些区域中的对象通过相似度属性而形成分组。然而在高维空间中,所有的数据都很稀疏,从很多角度看都不相似,因而平常使用的数据组织策略变得极其低效。

“维数灾难”通常是用来作为不要处理高维数据的无力借口。然而,学术界一直都对其有兴趣,而且在继续研究。另一方面,也由于本征维度(英语:intrinsic dimension)的存在,其概念是指任意低维数据空间可简单地通过增加空余(如复制)或随机维将其转换至更高维空间中,相反地,许多高维空间中的数据集也可削减至低维空间数据,而不必丢失重要信息。这一点也通过众多降维方法的有效性反映出来,如应用广泛的主成分分析方法。针对距离函数和最近邻搜索,当前的研究也表明除非其中存在太多不相关的维度,带有维数灾难特色的数据集依然可以处理,因为相关维度实际上可使得许多问题(如聚类分析)变得更加容易。另外,一些如马尔科夫蒙特卡洛或共享最近邻搜索方法经常在其他方法因为维数过高而处理棘手的数据集上表现得很好。

在一些问题中,每个变量都可取一系列离散值中的一个,或者可能值的范围被划分为有限个可能性。把这些变量放在一起,则必须考虑很多种值的组合方式,这后果就是常说的组合爆炸(英语:Combinatorial explosion)。即使在最简单的二元变量例子中,可能产生的组合总数就已经是在维数上呈现指数级的 O ( 2 d ) {displaystyle O(2^{d})} 或(以Gordon F. Hughes命名)。

在贝叶斯统计中维数灾难通常是一个难点,因为其后验分布(英语:posterior distributions)通常都包含着许多参数。

然而,这一问题在基于模拟的贝叶斯推理(尤其是适应于很多实践问题的马尔科夫蒙特卡洛方法)出现后得到极大地克服,当然,基于模拟的方法收敛很慢,因此这也并不是解决高维问题的灵丹妙药。

当一个度量,如欧几里德距离使用很多坐标来定义时,不同的样本对之间的距离已经基本上没有差别。

一种用来描述高维欧几里德空间的巨型性的方法是将超球体中半径 r {displaystyle r} 近邻(-NN)图,该图使用一些距离函数从数据集构造。当维度增加时,-NN有向图的入度分页将会向右倾斜,从而导致中心的出现,很多的数据实例出现在其他许多实例(比预期多得多)的-NN列表中。这一现象对很多技术,如分类(包括最近邻居法、半监督学习,和聚类分析都有很大的影响。,同时它也对信息检索问题有影响。

相关

  • 冰山冰山(英语:Iceberg)是一块大若山川的冰,脱离了陆上的冰川或冰架,并漂浮在广阔的水面上。由于冰山质地结实坚硬、体积大,与船擦撞时常导致船难,其中较著名的有1912年所发生的泰坦尼
  • 天体生物学家天体生物学(英语:astrobiology),旧称外空生物学(xenobiology),是一门研究在宇宙中生命起源、生物演化、分布和未来发展的交叉学科,并不只限于地外生物,或包括对地球生物的研究。在天
  • 狭鳕Asellus Minding, 1832狭鳕为辐鳍鱼纲鳕形目鳕科狭鳕属及青鳕属下鱼种的统称,分布于北大西洋及北太平洋区。这类鱼栖息在沿海,喜群游,具回游特性,属肉食性,以甲壳类及小鱼等为食,
  • 同步电动机同步电动机是一种交流电动机,转子旋转速度与所提供交流电的频率相同。原理是由交流电在电动机的定子处产生旋转磁场,使电动机转子旋转。在同步电动机的转子有电磁铁或永久磁铁
  • Choir!《Choir!》第1册漫画封面《Choir!》是天蓬元帅创作的日本四格漫画作品。于德间书店杂志《月刊COMIC RYU》2006年11月号首度发表,2011年1月号连载结束。已经出版全3本单行本。
  • 法奇奥里法奇奥里钢琴(意大利语:Fazioli Pianoforti),或译法齐奥利,是一家位于意大利萨奇莱、成立于1981年的顶级三角钢琴制造公司,创始人为工程师兼钢琴家保罗·法奇奥里(Paolo Fazioli)。
  • 赵又廷赵又廷(1984年9月25日-),生于台湾,加拿大籍男演员,台湾著名艺人赵树海次子。首度演出电视剧《痞子英雄》即获得第44届金钟奖戏剧节目男主角奖,而后事业重心移往电影。2017年,出演《
  • 土俵土俵(日语:土俵/どひょう ),是日本相扑比赛时的圆形黏土擂台,直径4.55米,高34公分至60公分,并以米袋围起来,土俵上面覆盖沙子,并建造在长宽各6.7米的方形平台上。在该俵中心有两条白色的线,力士就是在这里准备比赛。土俵上方有一个类似神社屋顶吊在半空的建筑,称“神明造”,四角悬挂黑、青、红、白色流苏,象征四神。土俵的东西南北四面有突出的部分,称德俵。传统上视土俵为神圣地方,并严禁女性进入,认为女子的存在会导致“不洁”。2018年4月4日,大相扑春季巡业在京都府舞鹤市舞鹤文化公园体育馆进行表演,舞鹤市
  • 蓝枕蓝鸦蓝枕蓝鸦(学名:),是鸦科蓝鸦属的一种,分布于巴西、委内瑞拉和哥伦比亚。全球活动范围约为141,000平方千米。该物种的保护状况被评为无危。蓝枕蓝鸦的栖息地包括亚热带或热带的旱林、亚热带或热带的湿润低地林、干燥的稀树草原、亚热带或热带严重退化的前森林和亚热带或热带的(低地)干燥疏灌丛。
  • 唐汝楫唐汝楫(1513年-1597年),字恩济,自号小渔,浙江金华府兰溪县(今浙江省兰溪市)城中北隅人。明朝状元,政治人物。唐汝楫父唐龙,官至吏部尚书,与严嵩过从甚密。唐汝楫中式顺天府乡试第一百三名举人,嘉靖二十九年(1550年)中庚戌科一甲一名进士(状元),四月授翰林院修撰。四十年六月充裕王府讲官,升右春坊右谕德,为皇太子朱载坖讲课。嘉靖四十一年(1562年)九月严嵩倒台,唐汝楫因父事严嵩,被罢官削职。隆庆元年,明穆宗为汝楫平反,“特授奉常,宠赉银币”。晚年自称白云、紫霞二洞主人,终日与田夫野老对谈。卒后葬于