核主成分分析

✍ dations ◷ 2025-07-01 05:39:54 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 第三代头孢菌素(法语:Cephalosporine、英语:Cephalosporin),又名先锋霉素,是一系列属于β内酰胺类的抗生素。与头霉素一并细分为头孢烯。头孢菌素化合物最初是于1948年,由意大利科学家Giu
  • 玻璃天花板玻璃天花板(英语:glass ceiling)是指在公司、企业和机关、团体中对某些群体(如女性、少数族裔)晋升到高级职位或决策层的潜在限制或障碍。它指正如玻璃一样,这个障碍虽然不会明文
  • 韦部,为汉字索引中的部首之一,康熙字典214个部首中的第一百七十八个(九划的则为第三个)。就正体中文中,韦部归于九划部首,而简体中文则归四划。韦部只以左方为部字。且无其他部首
  • 高雄行动创意高雄行动创意,全称“高雄行动创意国际征选”(Idea for Action Kaohsiung International Competition),是高雄市政府为了配合国际都市发展协会(International Urban Development A
  • 氧化钪氧化钪(化学式:Sc2O3),是钪最常见的氧化物。它是不溶于水的白色粉末,易溶于热酸,但经高温灼烧的氧化钪较难溶解。氧化钪可借由直接燃烧钪而得:含挥发基的钪化合物经氧化灼烧也可以
  • 德国入侵卢森堡德国入侵卢森堡是1940年代法国战役的一部分。卢森堡原属于神圣罗马帝国、荷兰联合王国、以及后来的德意志邦联。出于各种原因,德意志帝国国曾两次入侵过卢森堡。第一次是世界
  • 中华小熊猫中华小熊猫(学名:),又叫斯坦氏小熊猫,是一种小型小熊猫科哺乳动物,分布于中国云南和四川。。1902年,奥德菲尔德·托马斯根据从四川收集的标本中的一个头盖骨,描述了小熊猫川西亚种。
  • 程信程信(1417年-1472年),字彦实,直隶河间人,祖籍直隶徽州府休宁县(今安徽省)。明朝政治人物,正统壬戌进士,官至南京兵部尚书兼大理寺卿。正统七年(1442年),登壬戌科进士,授吏科给事中。代宗继
  • 劳动之王黄腾浩、安唯绫、古斌、邓九云、罗思琦、张静之《劳动之王》( 错误:{{lang-xx}}:文本有斜体标记(帮助)),2017年台湾偶像剧。由黄腾浩、安唯绫、古斌、邓九云、罗思琦、张静之领衔主
  • 本町 (台北市)本町为台湾日治时期台北市之行政区,共分一~四丁目,位于台北城内、表町之西。战后划入城中区,今属台北市中正区。以现在的位置来看,本町位于现中正区的西北角,约位于忠孝西路一段往