核主成分分析

✍ dations ◷ 2025-11-29 19:42:11 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 汉滩江汉滩江(朝鲜语:한탄강/漢灘江 Hantangang */?)是韩国的一条河流,为北汉江的支流,流经江原道和京畿道。历史上是汉他病毒首次发现的地方。
  • 蒙特维多国家权利义务公约蒙特维多国家权利义务公约(英语:Montevideo Convention on the Rights and Duties of States,简称:蒙特维多公约 / Montevideo Convention)是1933年12月26日于第七届美洲国家国
  • 环状轻轨.mw-parser-output .RMbox{box-shadow:0 2px 2px 0 rgba(0,0,0,.14),0 1px 5px 0 rgba(0,0,0,.12),0 3px 1px -2px rgba(0,0,0,.2)}.mw-parser-output .RMinline{float:none
  • 两瓣趾甲复型小趾甲是在小趾上的一项身体特征,有些人在小趾外侧的长出一片细小的“第六片趾甲”(在中文里常称为小小趾甲、小趾甲分两瓣、瓣状甲)。一般认为这项身体特征多出现在汉族人
  • 唐努乌拉山脉唐努乌拉山脉(俄语:Танну-Ола;图瓦语:Таңды-Уула)是俄罗斯的山脉,位于与蒙古国接壤的边境,由图瓦共和国负责管辖,属于南西伯利亚山脉的一部分,最高点海拔高度2,930
  • teratogen畸形学(英语:Teratology)是研究生理上发展缺陷的学科。人们常常认为它就是研究人类先天性障碍的,但是其实畸形学的覆盖面比这个广得多。除了先天发育之外,它也研究其他的生命阶段
  • 格林斯伯勒格林斯伯勒(英语:Greensboro)是美国北卡罗来纳州吉尔福德县的一座城市,人口约279,639(2013年)。
  • 克莱佩达机场克莱佩达机场(立陶宛语:Klaipėdos oro uostas,IATA:KLJ,ICAO:EYKL),是立陶宛西部克莱佩达以东7千米处的一座民用机场,主要为飞行运动和包机服务。机场紧邻A1/E85高速公路。克莱佩达
  • 奇异数 (数论)在数论中,奇异数(或称奇怪数)是指不是半完全数的丰数,也就是说此自然数之所有真约数(即小于此自然数之正约数)之和比此数自身大(丰数的定义),但其真约数不论如何组合,其和都不等于此自
  • 孟宪承孟宪承(1894年9月21日-1967年7月19日),又名宪臣,字伯洪、伯和,男,江苏武进人,中国教育家,华东师范大学首任校长。孟宪承早年先后就读于常州府小学堂、上海南洋公学预科、圣约翰大学。