核主成分分析

✍ dations ◷ 2024-12-23 08:13:01 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 汉诺威汉诺威(德语:Hannover)位于莱讷河畔,德国下萨克森州的首府,位于北德平原和中德山地的相交处,既处于德国南北和东西铁路干线的交叉口,又濒临中德运河,是个水陆辐辏的交通枢纽。汉诺威
  • 双层脂膜磷脂双分子层(英语:lipid bilayer 或phospholipid bilayer)是由两层磷脂分子组成的薄膜。 几乎所有细胞生物的细胞膜和许多病毒的包膜都主要由磷脂双分子层构成,此外,核被膜和
  • 大般若经《大般若经》,全称《大般若波罗蜜多经》(梵语:महामहाभारतसूत्र Mahā-prajñāpāramitā Sūtra),大乘佛教经典,为宣说“诸法空相”之义的般若类经典汇编,并广述菩
  • 克莱尔学院剑桥大学克莱尔学院(Clare College, Cambridge)是剑桥大学现存学院中第二古老的学院,创建于14世纪,在学院的初期获得了爱德华一世的外孙女克莱尔·伊丽莎白( Elizabeth de Clare)
  • 东部菱背响尾蛇东部菱背响尾蛇(学名Crotalus adamanteus,eastern diamondback rattlesnake)为美洲最重的毒蛇,除了是世界上最大的响尾蛇,也是北美洲最大的毒蛇,最常可达7英尺(84英寸=2.14米)。东
  • 镇平县坐标:33°2′17.60″N 112°13′36.27″E / 33.0382222°N 112.2267417°E / 33.0382222; 112.2267417镇平县,古称涅阳,是中国河南省南阳市下辖的一个县。位于河南西南部,南阳盆
  • 官房学派官房学派(英语:Cameralism,17世纪),又称作重商主义的官房学派,又译作“官房学”、“官房主义”,是重商主义的一种形式,强调促进国家福利状况,认为增加国家的黄金、白银等货币能增强国
  • 斯宾塞·亚伯拉罕斯宾塞·亚伯拉罕(Spencer Abraham;1952年6月12日-)是美国的一位政治人物。在1995年至2001年期间,他是密歇根州的两位参议院议员之一。他的党籍是共和党。在2001年至2005年期间,亚
  • 王汉伦王汉伦(1903年-1978年8月17日),原名彭琴士,字剑青,女,江苏苏州人,中国早期电影演员。1923年踏入影坛,出演默片《孤儿救祖记》而成名。1926年左右,王汉伦在菲律宾花费120大洋烫发。1932
  • 基里尔·莫斯卡连科基里尔·谢苗诺维奇·莫斯卡连科(俄语:Кирилл Семёнович Москаленко,1902年5月11日-1985年6月17日),苏联军事领导人,苏联元帅(1955年晋升),两次获得苏联英雄