核主成分分析

✍ dations ◷ 2025-10-19 00:47:09 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 凯瑟琳·丽塔-琼丝凯瑟琳·泽塔-琼斯,CBE(英语:Catherine Zeta-Jones,1969年9月25日-)是一位英国女演员。她曾获得几项荣誉,包括奥斯卡金像奖、英国电影学院奖、东尼奖,及于2010年被授勋大英帝国勋章(C
  • 凯瑟琳·德纳芙凯瑟琳·德纳芙(法语:Catherine Deneuve,1943年10月22日-)法国女影星,从1960年代活跃至今。出生于法国巴黎,13岁从影。有法国第一美人之称。成名作电影是“秋水伊人”,代表作是阐释
  • 姜黄素姜黄素(英语:curcumin)是一种从姜黄根茎中提取得到的黄色色素。它是最主要的姜黄色素(curcuminoid)类物质,约占姜黄色素的70%,约为姜黄的3%~6%。除了姜黄素之外,这一类化合物还包括脱甲
  • 北斗星君北斗星君,与南斗星君并称,是道教中重要的星君,掌管北斗七星,分别是“贪狼星(天枢星)、破军星 (瑶光星)、巨门星 (天璇星)、禄存星 (天玑星)、文曲星 (天权星)、武曲星 (开阳星)、廉贞星 (玉衡
  • 精神疾患精神障碍(英语:mental disorder),或称精神(疾)病,俗称心理疾病,主要是一组以表现在行为、心理活动上的紊乱为主的精神症状。目前研究所得到的结果认为主要是由于家庭、社会环境等
  • 德克萨斯诉怀特案德克萨斯州诉怀特案(74 U.S. 700 (1869)),是1869年在美国联邦最高法院进行诉讼的一个重要案例。在该案中,德克萨斯州的内战后重建政府声称德克萨斯州的邦联政府在内战期间非法
  • 浊小舌擦音浊小舌擦音是辅音的一种,在一些口语中存在,汉语普通话无此音。国际音标中表示该音的符号是⟨ʁ⟩;而与之等价的X-SAMPA符号是⟨R⟩。在欧洲语言里面,该辅音是喉音R中的其中一种
  • 格拉奇娜·巴切维茨格拉奇娜·巴切维茨(波兰语:Grażyna Bacewicz,1909年2月5日-1969年1月17日),波兰作曲家,小提琴家。早年在华沙音乐学院学习,后接受帕德雷夫斯基资助赴巴黎师从娜迪亚·布朗热,回国后
  • 卡斯帕·温伯格卡斯珀·威拉德·温伯格(英语:Caspar Willard Weinberger;1917年8月18日-2006年3月28日)是一位美国政治家和商人。作为杰出的共和党人,他在州和联邦政府的各种职位上工作了三十年
  • 何曼婷何曼婷(1992年7月23日-),中国云南出身的女歌手。于2010年4月与华谊音乐签约,随后发布的首张EP《大爱》。