核主成分分析

✍ dations ◷ 2025-11-29 08:26:47 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 碑是指人为竖立的石块,通常刻有文字,具有一定用途,如记载事件、指示里程(里程碑)、划定边界(界碑)及作纪念用途(纪念碑)等。中国古代官员都有立碑的习惯,视为荣耀。唐朝的地方官若要立
  • 脒(Amidine)是一类含氮有机化合物,通式见右图,是羧酸的含氮衍生物。最简单的脒是甲脒,HC(=NH)NH2。常见的脒包括DBN、DBU和三氮脒等。低级的脒有毒。脒具碱性,可以和酸形成稳定的
  • 敕书敕书今简作敕(异体字简称:敕、敕、饬)是君主制国家的一种文件。敕书是中国皇帝行文予朝臣的诏书(敕书是诏书的一种,敕书不等于诏书)。敕书在南北朝起才专指皇帝写给臣僚的诏书,其实
  • ATC代码 (R)ATC代码R(呼吸系统)是解剖学治疗学及化学分类系统的一个分类,这是由世界卫生组织药物统计方法整合中心(The WHO Collaborating Centre for Drug Statistics Methodology)所制定的
  • 海桩海桩(stylophorans)是一类已灭绝的棘皮动物,化石发现于中寒武纪到晚石炭纪,是海扁果亚门中人们了解最多的一纲。海桩有形状不规则的萼(Calyx),一些种类的萼上有椭球行鳃裂状靴孔,而
  • 东广州东广州是北齐文宣帝天保三年(552)设立的州,原为南朝梁南兖州。北齐改南兖州为东广州,治广陵(今扬州市区),下置广陵、江阳2郡。南朝陈宣帝太建六年(574),东广州入南朝,复称南兖州。
  • 东方铁线莲东方铁线莲(学名:)为毛茛科铁线莲属下的一个种。
  • 安德雷·马尔可夫安德雷·安德耶维齐·马尔可夫(俄语:Андре́й Андре́евич Ма́рков,英语:Andrey Andreyevich Markov,1856-1922)是一位俄国数学家。他在随机过程领域做出重
  • 夏原吉夏原吉像,取自明王圻、王思义撰《三才图会》夏原吉(1366年-1430年),字维喆,号麓潜子,湖广行省潭州府湘阴县县城夏家桥人,籍贯江西德兴,明朝初期官员,长期担任户部尚书。夏原吉早年以乡
  • 克里斯托夫·勒迈特雷克里斯托夫·勒迈特雷(法语:Christophe Lemaitre,1990年6月11日-)是一名法国短跑运动员,擅长100米和200米。他是首位跑入10秒大关的白人运动员。以20.12秒的成绩获得2016年里约奥