核主成分分析

✍ dations ◷ 2025-11-18 08:00:36 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 刘颂豪刘颂豪(1930年11月-),中国光学与激光专家。原籍广东顺德,生于广东广州,1951年毕业于广东文理学院。原中国科学院安徽光学精密机械研究所研究员、所长,原华南师范大学校长。1999年当
  • 耶稣再临耶稣再临(有时称为第二次降临或基督再临,英文Second Advent或Parousia)是一个基督教概念。二千年前,耶稣“第一次来到”,然后耶稣升天。耶稣再临是指他在未来将回到人间。这个信
  • 汉学家汉学家是专门从事汉学研究领域的专家,研究与中华文化(汉民族、中国)有关的内容。一般称为汉学家的人都是指不身在中国大陆及港澳台从事研究汉学的非华人(或非“中国人”)和非海外
  • 非洲猎犬非洲野犬(学名:Lycaon pictus),又名非洲猎犬、非洲豺犬或杂色狼,是生活在非洲草原、灌木丛以及稀疏林地的一种犬科动物,是非洲野犬属下唯一一种。非洲野犬的毛色与其他犬科动物有
  • 油棕油棕(学名:Elaeis guineensis)又名非洲油棕、油棕榈、油椰子,是棕榈科油棕属的一种,原产于西非,分布范围为安哥拉至冈比亚的西非地区,被引入至马来西亚和印度尼西亚等地;属于产油经
  • 梯又称梯子,指的是一种用于垂直移动的建筑或工具。具体细分之,梯的种类包括:广义上的:
  • 特雷莎·海因茨·克里特雷莎·海因茨·克里(Maria Teresa Thierstein Simões-Ferreira Heinz Kerry,1938年10月5日-)是美国慈善家,她的丈夫是前美国国务卿约翰·克里。她亦是亨氏创办人亨利·约翰·
  • 尼奥米·班克斯阿曼达·迪伊(英语:Amanda Dee,1972年10月14日-),艺名为尼奥米·班克斯(英语:Nyomi Banxxx),是一名美国电台主播、前色情演员。
  • 塔玛拉·德·蓝碧嘉塔玛拉·德·蓝碧嘉(波兰语:Tamara de Lempicka,1898年5月16日-1980年3月18日),波兰画家,装饰风艺术的代表人物之一。她活跃于1920年代和1930年代,曾在法国和美国工作过。她最出名的
  • 环路文化环路文化,是中国大陆(中国内地)的一种城市文化。指通过城市内的环形高速路和环形高架将城市大致地分成几块不同的区域的习惯。环路文化尤显著于上海和北京。前者通过内、中、外