核主成分分析

✍ dations ◷ 2025-11-28 06:51:27 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 桡骨桡骨(拉丁语:radius,复数:radii)是人和脊椎动物(四足)前臂两长骨之一;在某些动物(如蛙和蟾蜍),桡骨与尺骨愈合成桡尺骨。人的桡骨位于大拇指侧,上端为扁圆形的头,上面参与肘关节的组成,而
  • 广西医科大学广西医科大学是中国广西南宁市的一所全日制本科公办省属普通高等学校,以医学类专业为特色。1934年11月21日,广西省立医学院在南宁市创建。1940年校址迁至桂林。 1949年11月,改
  • 厕刷厕刷是一种可以用来清洗厕所的刷子,通常置于厕所的便器旁,一般来说会搭配厕所清洁剂或漂白剂来使用。不过,厕刷既不能用来清洗存水弯(因为构不到)也不能用来清洗马桶座圈。最早制
  • 圣赫勒拿、阿森松和特里斯坦-达库尼亚圣赫勒拿、阿森松和特里斯坦-达库尼亚(英语:Saint Helena, Ascension and Tristan da Cunha)是英国的海外领地,由圣赫勒拿岛与其北方的阿森松岛和南方的特里斯坦-达库尼亚群岛共
  • 相态假设一个系统是由一种物质均匀组成,拥有均匀的物理与化学性质,则称这系统只具有一种相(英语:Phase)。这是一种简单的系统,称为均相系统(英语:homogeneous (chemistry))。更复杂的系统
  • 明度明度(英语:Brightness)指颜色的亮度,不同的颜色具有不同的明度,例如黄色就比蓝色的明度高,在一个画面中如何安排不同明度的色块也可以帮助表达画作的感情,如果天空比地面明度低,就会
  • 贝蒂娜·冯·阿尔尼姆贝蒂娜·冯·阿尔尼姆(德语:Bettina von Arnim,1785年4月4日-1859年1月20日),原名伊丽莎白·卡瑟琳娜·卢多维卡·马格达伦娜·布伦塔诺(Elisabeth Catharina Ludovica Magdalena B
  • 九章出版社九章出版社,1978年创立于台湾的一个出版社,创办人为孙文先,主要专注于数学书籍。九章出版社代理Springer-Verlag、International Press 等世界著名出版社的数学书籍;与大陆的数
  • 加州月桂加州月桂,又名伞桂,是属于樟科加州月桂属的一种大乔木。原产于美国加利福尼亚州的海岸森林,小部分延伸至俄勒冈州内,在俄勒冈州称它为俄勒冈香桃木(Oregon Myrtle)。加州月桂属,又
  • 邢波邢波 (英语:Eric Xing)是卡内基梅隆大学计算机科学院教授,专供于机器学习、计算生物学和统计方法等方向。邢波喜爱冒险,1988年考入清华大学,曾经担任清华大学登山队第一任队长。19