核主成分分析

✍ dations ◷ 2025-04-26 13:12:28 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 巴尔的摩分类法巴尔的摩病毒分类系统(Baltimore classification)是一种由戴维·巴尔的摩建立的以基因组和病毒转录mRNA方式为区分的病毒分类系统。世界上的病毒千奇百怪,数量极多,生活周期又各
  • 哌啶哌啶、六氢吡啶是一个杂环化合物,分子式为(CH2)5NH。它是一个仲胺,可看作环己烷一个碳被氮替代后形成的化合物,即氮杂环己烷。室温下为无色发烟液体,有类似氨、胡椒和人类精液的
  • 捐精捐精是一种捐赠行为,指男性通过医疗机构,将自己的精子送赠妻子以外的女性,捐精过程男女之间不发生性行为。捐精可能在心理上有困难,因为有不少道德问题尚未解决,例如捐精所生的子
  • 格列美脲马尔胰(Amaryl)是一种硫酰基尿素类(Sulfonylurea)的糖尿病药物。主要成分为Glimepiride 。用来主治第二型糖尿病。
  • 世界公共舆论研究学会世界公共舆论研究学会(World Association for Public Opinion Research,WAPOR)是一个国际学术组织,由从事沟通与调查研究(英语:Survey (human research)的学者组成,总部位于美国内布
  • 联合国大会181号决议联合国大会181号决议 (分治决议),即联合国巴勒斯坦分割方案,于1947年11月29日在联合国大会通过。该决议提出了两个临时国家的建立,一个是犹太国,另一个是阿拉伯国。该决议也建议了
  • 砂糖碗砂糖碗(英语:Sugar Bowl)是美国大学美式足球的年度碗赛之一,目前每年在路易斯安那州新奥尔良的梅赛德斯-奔驰超级巨蛋举行。砂糖碗创办于1935年,与橘子碗、太阳碗并列为全美历史
  • 潍日高速公路潍坊-日照高速公路,简称潍日高速,高速公路网编号为G1815(先前省规划为S23),是一条连接山东省潍坊市和日照市的高速公路,全长约185km,双向四车道,设计速度120公里/小时。该高速公路位
  • 瑙西卡瑙西卡(.mw-parser-output .Polytonic{font-family:"SBL BibLit","SBL Greek","EB Garamond","EB Garamond 12","Foulis Greek",Cardo,"Gentium Plus",Gentium,"Theano Didot
  • 功率分配器与定向耦合器功率分配器与定向耦合器是主要用于无线电或微波领域的被动元件。它们将传输线中的电磁功率耦合到端口(英语:Port (circuit theory)),使得信号能够用在另一个电路中。定向耦合器