核主成分分析

✍ dations ◷ 2025-11-22 11:20:04 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 47,XYYXYY三体是一种人类男性的性染色体疾病,正常的男性性染色体是XY,而XYY三体者多出一条Y染色体,所以又称“超雄综合症”(super-male syndrome)。此病在各种性染色体疾病中比较常见,在
  • 动漫动漫是动画或漫画的合称与缩写,是在华人地区才有的称呼,另外西方国家将日本动画称Anime、漫画则称为Manga。而现今,动漫的发展已属于文化创意产业,同时是目前全世界热门且高人气
  • 加拿大省加拿大联合省(英语:United Province of Canada)是19世纪时英国在加拿大东南部的一个殖民地,也被称为加拿大省(Province of Canada),为现今加拿大联邦的前身。1841年,英国将上加拿大
  • 旋尾亚目旋尾亚目(学名:Spirurina),原为旋尾亚纲,现时被降为小杆目之下的一个线虫的分类单元,皆为海洋生物。根据WoRMS,本亚目包括下列五个下目:
  • 北方司令部美国北方司令部 (USNORTHCOM) 是美国9大一体化作战司令部之一, 主要任务是协助政府履行民事职责,抵御针对美国本土、阿拉斯加、加拿大、墨西哥的袭击。北方司令部是在九一一袭
  • 帕尔·拉扎尔帕尔·拉扎尔(匈牙利语:Pál Lázár;1988年3月11日-)是一位匈牙利足球运动员。在场上的位置是右后卫。他现在效力于匈牙利足球甲级联赛球队德布勒森足球俱乐部。他也代表匈牙利
  • 克里斯蒂安·奥古斯特·弗里德里希·彼得斯克里斯蒂安·奥古斯特·弗里德里希·彼得斯(德语:Christian August Friedrich Peters,1806年9月7日-1880年5月8日)是一位德国天文学家。1806年9月7日彼得斯出生于汉堡,是一位商人
  • 维尔纳·克雷默维尔纳·克雷默(德语:Werner Krämer,1940年1月23日-2010年2月12日),前德国足球运动员,曾先后效力于迈德里希、汉堡及波鸿,并曾代表德国国家足球队出场13次及射入3球。
  • 河南河流列表河南河流列表,列举全部或部分在河南省境内的河流,并依照流域排列;支流则由河口至源头排序。
  • 辜启允辜启允(1953年4月14日-2001年12月24日),祖籍彰化县鹿港镇,生于台北市,为鹿港辜家原定的第三代家族接班人;曾因股票于美国纳斯达克上市并爆涨后,身价水涨船高,尔后筹集钜资进军媒体业