核主成分分析

✍ dations ◷ 2025-09-10 00:08:11 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 童坦君童坦君(1934年8月15日-),浙江慈溪人,中国医学家、癌学专家,北京医科大学肿瘤与衰老分子生物学研究室主任,北京大学衰老研究中心主任,中国科学院院士。1934年出生在浙江慈溪江北区庄
  • 莫比尔市莫比尔(英语:Mobile,/moʊˈbiːl/,moh-BEEL,法语发音:.mw-parser-output .IPA{font-family:"Charis SIL","Doulos SIL","Linux Libertine","Segoe UI","Lucida Sans Unicode","Co
  • 莫里逊Wm莫里逊超市公司(Wm Morrison Supermarkets plc),是英国的第四大连锁超市,仅次于乐购、森宝利、阿斯达,总部位于英格兰西约克郡布拉德福德。莫里逊超市由威廉·莫里逊创建于1899
  • 法国驻韩大使馆法国驻韩大使馆(法语:Ambassade de France en Corée du Sud、韩语:주한 프랑스 대사관)是法国驻在大韩民国的外交代表机构,位于首尔西大门区。现任大使是法比安·潘农,2015年6月3
  • 乔治敦乔治敦(英语:Georgetown)位于圭亚那北部大西洋沿岸和德梅拉拉河畔,是圭亚那首都,也是该国最大的城市,人口约250,000(1998年)。
  • 观自在菩萨章〈观自在菩萨章〉,全称〈大方广佛华严经入不可思议解脱境界普贤行愿品善财童子参观自在菩萨章〉,或简称〈华严经普贤行愿品观自在菩萨章〉,是从《华严经》撷录出善财童子参学观
  • 西奥多·利普斯西奥多·利普斯(Theodor Lipps,1851年7月28日-1914年10月17日),德国哲学家。利普斯曾在慕尼黑大学执教,是当时德国最有影响力的大学教授之一,吸引了许多来自其他国家的学生。利普
  • 李宏麟李宏麟(1963年-),出生于台湾嘉义。现任PChome Online网络家庭及露天拍卖总经理。曾于商业周刊 (台湾)、远见杂志从事传播媒体工作、于出版集团IDG台湾分公司担任Computer worl
  • 荻野可铃!荻野可铃(1995年10月12日-)是日本女性模特儿、偶像、声优及女演员。出身于山梨县。目前隶属于Tambourine Artists,并与Just Production有着业务上的合作关系。她与山田朱莉、志
  • 巴黎政治学院校友巴黎政治学院目前在世的校友共有5万3千名,众多校友在企业、政府、国际组织、媒体、研究以及艺术和文学方面获得了巨大的成就。巴黎政治学院校友会l'Association des Sciences