核主成分分析

✍ dations ◷ 2025-12-11 03:34:26 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 船蛆船蛆(学名:Teredo navalis),又名凿船虫、船食虫、船喰虫,是双壳纲的一种海洋动物,属于海螂目蛀船蛤科蛀船蛤属。本物种分布于韩国、中国大陆、台湾及南中国海,常栖息在温带及热带,尤
  • 奔宁山脉奔宁山脉(the Pennines)是英国北部的主要山脉,有“英格兰的脊梁”之称。北起南泰恩河谷地,南至特伦特河谷地,全长241公里,平均宽度约为48公里。最高峰斯科费尔峰,海拔978米。
  • facade立面(英语:facade、法语:façade,IPA: /fa 'sad/),建筑学术语,一般指建筑物的外墙——尤其是正面,但亦可指侧面或背面。这个词汇源自法文,意思是房子的正面或面孔。在建筑学中,建筑物
  • Csub10/subHsub8/subNa萘钠是一种有机盐,化学式为NaC10H8/ C10H8Na,离子化学式为Na+C10H8−。在实验室研究中,它被用作有机化学、有机金属化学和无机化学合成中的还原剂。尚未制得固体,一般是现配现用
  • 史前战争战争是动物界普遍的行为,在人类社会,战争则与政治紧密关联,是多个组织和组织之间的有组织性的武装冲突。克劳塞维茨认为“战争是政治的延续”。以武力为手段,目的是迫使一方服从
  • 林爽文林爽文(1756年-1788年),清代福建省台湾府彰化县大里杙(今台中市大里区)人,原籍福建漳州平和。台湾清治时期重大民变林爽文事件的领导人。1773年随其父亲渡海来台,定居彰化县大里杙庄
  • 王的面孔《王的面孔》(韩语:왕의 얼굴/王의 얼굴 ,英语:The King's Face,副标题:龙颜)为韩国KBS自2014年11月19日起播出的水木迷你连续剧,由《新娘面具》尹成植导演与《钱的战争》李香姬作家
  • 鲁迅美术学院鲁迅美术学院,为中国辽宁省沈阳市的一所艺术类高校。现有大连分校区。鲁迅艺术学院始建于延安。1945年,迁校至东北。1958年,改为鲁迅美术学院。鲁美设有11个系,分别为中国画系、
  • 冲破火网《冲破火网》(日语:アフターバーナー,英语:After Burner)是世嘉AM 2开发的1987年战斗飞行模拟类街机游戏。这时铃木裕最早设计的游戏之一。玩家使用专用摇杆(含飞行员座舱)操作F-14
  • 巴尔多梅罗·埃斯帕特罗华金·巴尔多梅罗·费尔南德斯-埃斯帕特罗·阿尔瓦雷斯·德托罗 GR KOGF OCIII OIC RMOSH RCSF KOTS(西班牙语:Joaquín Baldomero Fernández-Espartero y Álvarez de Toro,1