核主成分分析

✍ dations ◷ 2025-11-24 01:02:41 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 白髓白髓,亦作白脾髓,是脾脏的一部分,与红脾髓一起构成脾脏的主要部分。白脾髓由马耳皮基氏脾小结及马耳皮基氏小体等腺体组织构成,外貌呈球型,包裹着小动脉。它的主要功能则为对抗外
  • 推拿推拿古称按摩、按
  • 嫁接嫁接是园艺技术,其中植物的组织被结合以便一起继续其生长。组合植物的上部称为接穗(/ˈsaɪən/),而下部称为砧木。该技术最常用于园艺和农业贸易的商业种植植物无性繁殖。在
  • 色相色相(英语:hue)指的是色彩的外相,是在不同波长的光照射下,人眼所感觉不同的颜色,如红色、黄色、蓝色等。在HSL和HSV色彩空间中,H指的就是色相,是以红色为0度(360度);黄色为60度;绿色为12
  • 胡安·费尔南德斯群岛胡安·费尔南德斯群岛(西班牙语:Archipiélago Juan Fernández)是南太平洋上的一个火山岛群岛。由3个岛屿组成。主要由鲁宾逊克鲁索岛、马斯阿富埃拉岛和圣克拉拉岛3岛组成。
  • 北京之战 (1900年)辛丑条约北京之战,或史称北京解围战,是1900年8月14日—15日由英军率领的八国联军在义和团运动期间解北京东交民巷外国公使馆之围的战役。从6月20日起,义和团军队和清帝国军队就
  • 纤维流形在数学中,纤维流形(英语:Fibrifold),又称为纤维形,是一种基底空间为轨形(英语:Orbifold)的纤维空间(英语:fiber space),在2001年时由约翰·何顿·康威、奥拉夫·德尔加多·弗里德里希(Olaf
  • 再见哈瓦那《再见哈瓦那》(英语:)是一部描写古巴生活的快节奏流意识纪录片,由J.迈克尔·塞费特执导的,在古巴拍摄和编辑经历2年时间。外交政策杂志称本片“菲德尔(卡斯特罗)留下来的古巴的多
  • 知念蒲知念蒲(日语:知念 カマ/チニン カマ ,1895年5月10日-2010年5月2日),又译知念镰,日本长寿女性,自美国人葛楚德·拜恩斯2009年9月11日辞世后,继位为在世最年长者。
  • 猪笼草科 (2001年专著)《猪笼草科》(Nepenthaceae)是由马丁·奇克和马修·杰布所著的关于文莱、印度尼西亚、马来西亚、巴布亚新几内亚、菲律宾和新加坡猪笼草属食虫植物的专著。2001年其发表于荷兰