核主成分分析

✍ dations ◷ 2025-11-30 21:10:13 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 游耕轮耕是耕种的形式,是指在某块土地耕种一段时间,其肥力下降后,即将之荒废(休耕),改为耕种其他土地;待原来土地肥力回升后,再重新耕种;类似游牧民族的“逐水草而居”制度。轮耕通常在发
  • 阿基坦期阿基坦期(英语:Aquitanian)是中新世的第一个阶段。其起止时间为23.03百万年前和20.44百万年前。
  • 中轨道卫星中地球轨道(Medium Earth Orbit,MEO)也叫中圆轨道,是位于低地球轨道(2,000千米(1,243英里))和地球静止轨道(35,786千米(22,236英里))之间的人造卫星运行轨道。运行于中地球轨道的卫星大
  • 西山朝西山朝(越南语:Nhà Tây Sơn/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","Mi
  • 人类冠状病毒229E人类冠状病毒229E(Human coronavirus 229E、HCoV-229E)是甲型冠状病毒属的一种病毒,于1966年被发现,是已知七种能感染人类的冠状病毒中第一个被发现者。229E病毒与同属的人类冠
  • 巴士底日巴士底日,又称法国国庆日(法语:Fête nationale française),定于每年的7月14日,以纪念在1789年7月14日巴黎群众攻克了象征封建统治的巴士底狱,从而揭开法国大革命序幕。1789年7月1
  • 弗伦克尔缺陷弗伦克尔缺陷(英文 或 )是指晶体结构中由于原先占据一个格点的原子(或离子)离开格点位置,成为间隙原子(或离子),并在其原先占据的格点处留下一个空位(晶格空位),这样的晶格空位-间隙
  • 低电压指令低电压指令(LVD) 2006/95/EC是欧洲联盟最早提出的欧洲联盟指令之一。指令提供有关安全规范的共同广泛目标,因此由各欧盟成员国许可的电气设备可以在其他欧盟国家使用,在正常情形
  • 澳门特别行政区公共资产监督规划办公室澳门特别行政区公共资产监督规划办公室(葡萄牙语:Gabinete para o Planeamento da Supervisão dos Activos Públicos da Região Administrativa Especial de Macau,葡文缩写
  • 岩崎恭子岩崎恭子(日语:岩崎 恭子/いわさき きょうこ ,1978年7月21日-),是日本游泳运动员。岩崎出生于静冈县沼津市,在1992年夏季奥林匹克运动会上以0.2秒的微弱优势击败中国的林莉,夺得女子