核主成分分析

✍ dations ◷ 2025-02-26 08:39:29 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 硬脂酸硬脂酸(IUPAC系统命名法:十八酸,英语:Stearic acid)是一种饱和脂肪酸。它是一种难溶于水的蜡状固体,化学式C18H36O2,可溶于乙醇和丙酮,易溶于乙醚、氯仿、四氯化碳、苯和二硫化碳等
  • 标量玻色子标量玻色子(英语:Scalar boson)是指自旋为0的玻色子。标量玻色子的名称起源于量子场论,指的是洛伦兹变换下特定的变换性质。
  • 贝瑞·邦兹选手时期教练时期贝瑞·拉玛尔·邦兹(英语:Barry Lamar Bonds,1964年7月24日-),中文绰号棒子爷,是前美国职棒旧金山巨人队的球员。他以擅长本垒打(攻)、盗垒(跑)及守备(守)之全能打者而闻
  • 证言《证言》(韩国语:증언/證言*/?,英语:Testimony)为1974年韩国战争电影,于1974年1月1日上映,片长125分钟,由韩国著名导演林权泽执导,金在演监制,电影振兴公社(朝鲜语:영화진흥위원회)出品、
  • 亚历山大·罗伯图斯·托德,托德男爵亚历山大·罗伯图斯·托德,托德男爵,OM,FRS(苏格兰盖尔语:,1907年10月2日-1997年1月10日),出生于格拉斯哥,苏格兰化学家,1957年获诺贝尔化学奖。托德从牛津大学毕业后,在利斯特研究所,爱
  • 螽斯科.mw-parser-output ruby.zy{text-align:justify;text-justify:none}.mw-parser-output ruby.zy>rp{user-select:none}.mw-parser-output ruby.zy>rt{font-feature-settings:
  • 美国空军第62空运联队美国空军第62空运联队(英语:62nd Airlift Wing, 62 AW)是美国空军机动司令部美国第十八航空队下属的航空联队,驻扎美国华盛顿州的刘易斯-麦克德联合基地(英语:Joint Base Lewis–M
  • 吴兰修吴兰修(1789年-1839年),字石华,广东省梅州市梅县松口镇下坪阙里村人。清朝学者,对南汉史学造诣尤深。吴兰修少年勤学,嘉庆十三年(1808年)乡试中举。曾任广东信宜县儒学训导,后在广州粤
  • 麻塘湖水库麻塘湖水库,是一座用于防洪建设,结合农业灌溉、城市供水、水产养殖为开发目的中型水库,位于长江支流皖河上,属长江水系。位于中华人民共和国安徽省安庆市怀宁县石牌镇。1957年开
  • 黄陂黄陂可以指: