核主成分分析

✍ dations ◷ 2025-12-05 12:08:17 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 文献文献一词最早见于《论语·八佾》:“子曰,夏礼,吾能言之,杞不足征也。殷礼,吾能言之,宋不足征也。文献不足故也。足,则吾能征之矣。”文指典籍,献指人才。朱熹《论语集注》中解释:“文
  • 查尔斯-阿道夫·武尔茨查尔斯-阿道夫·武尔茨(英语:Charles Adolphe Wurtz,1817年11月26日-1884年5月10日),来自阿尔萨斯的法国化学家。最让人津津乐道的是他拥护原子理论和化合物的结构理论,而与持怀疑
  • Nikon尼康株式会社(英文:Nikon,日语:株式会社ニコン)简称尼康(英文:Nikon),是一家日本大型光学仪器制造商,也是三菱集团的关系企业之一。“Nikon”此企业名称,为原始之商号“日本光学工业”(N
  • 5f14 6d10 7s2 7p5 (预测) 2, 8, 18, 32, 32, 18, 7 (预测)第一:742.9(预测) kJ·mol−1 主条目:s2p5价电子排布。对于Ts,这一规律将会持续,价电子排布预计为7s27p5,所以Ts的许多性质
  • 开云开云集团(Kering)原名巴黎春天集团(PPR,为“碧诺-春天-雷都”(Pinault-Printemps-Redoute) 的缩略),2013年6月18日经股东大会批准后改为现名,是一家以经营服装及配饰等奢侈品为主的国
  • 罗伯特·梅纳德·波西格罗伯特·梅纳德·波西格(Robert Maynard Pirsig,1928年9月6日-2017年4月24日),美国作家与哲学家。1928年出生在明尼苏达州明尼阿波利斯,父亲是梅纳德·派里奇,有德国和瑞典血统。他
  • 莫里斯·阿莱莫里斯·菲力·夏尔·阿莱(法语:Maurice Félix Charles Allais,1911年5月31日-2010年10月9日),生于法国巴黎,法国总体经济学家,主要研究领域为市场理论与资源的效率分配,曾经提出阿
  • 天网卫星计划天网卫星计划(Skynet)是英国国防部的太空项目,由一系列军用卫星组成,目的是为英军和北约部队提供战略通信服务。这一计划耗资36亿英镑,是英国最大的单一太空项目。
  • 伊亚-加米尔伊亚—加米尔(约公元前1460年前后在位)(英语:Ea-gamil)海地王朝末代国王。由于被巴比伦国王乌兰布里亚什打败,他成为最后一位统治者,即所谓巴比伦第二王朝的末任君主。在那以后,巴比
  • 安东·绍特安东·绍特(Anton Eleutherius Sauter,1800年4月18日-1881年4月6日)是一名奥地利植物学家和医学家。安东·绍特出生在萨尔茨堡。他的父亲是一个官员。他出生后不久他家迁居到维