核主成分分析

✍ dations ◷ 2025-06-17 17:58:08 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • HBrO次溴酸是一个不稳定的弱酸,化学式为HBrO,其中溴的氧化态为+1。次溴酸只存在于溶液中,性质与次氯酸类似,用作氧化剂、除臭剂、消毒剂和漂白剂。温血脊椎动物体内含有次溴酸,主要由
  • 四万十市四万十市(日语:四万十市/しまんとし Shimanto shi */?)是位于高知县西南部的主要城市,辖区大多为山林地,市中心位于四万十川下游的冲积平原-中村平原,也因为四万十川的缘故,命名为
  • 麦卡贝麦卡贝网络电视(Camerabay)为网络电视频道,2013年9月2日开播,在网络上迅速窜起,提供游戏软件资讯、实况主对谈、电竞、新闻评论、音乐与综艺娱乐等节目。麦卡贝网络电视的营运商
  • SEPTASEPA或Septa可能指:
  • 军政 (政体)军政(英语:stratocracy),又称军人专政、军阀政治,一种由军人担任国家元首,由军队进行直接控制的政体形式,在此政体下由军人组成的政府称为军事政府。绝大部分军政是经过政变或军事
  • 犯罪都市《犯罪都市》(韩语:범죄도시)是一部2017年10月上映的韩国犯罪片,由姜允成执导,马东石和尹启相主演。改编自韩国真实事件,讲述本来黑白平衡的世代,因为外来黑帮的入侵成为冲突的导火
  • 冢田清市冢田清市(つかだ せいいち;1855年7月22日-1934年11月11日)日本陆军大佐,长期担任乃木希典的副官,战后出版了《乃木大将事迹》。1855年7月22日,冢田清市生于日本鸟取县,是鸟取藩士
  • 离散偶极近似离散偶极近似(Discrete Dipole Approximation DDA)是一种用来求解物体散射电磁波的计算方法。它使用大量偶极子组成的阵列来模仿连续的物体,通过求解这些偶极子在入射电磁波照
  • 爱德华·塔克曼爱德华·塔克曼(Edward Tuckerman,1817年12月7日-1886年3月15日)为美国植物学家和教授。其对地衣及高山植物作出大量研究。他是波士顿的自然历史协会的创始成员,他的大部分职业生
  • 埃米尔·尼古拉耶维奇·斯皮里多诺夫埃米尔·尼古拉耶维奇·斯皮里多诺夫(俄语:Эмиль Николаевич Спиридонов,1925年9月26日-1981年2月7日)是苏联海军将领。太平洋舰队司令。1942年加入海