核主成分分析

✍ dations ◷ 2025-12-07 02:17:12 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 古典时代晚期古典时代晚期又称作古代晚期、晚古时期或近古代(英语:Late Antiquity),是历史学上的术语,意指古典古代到中世纪之间的期间,地区包含了欧洲的大部分和环地中海地区,历史学者彼得·布
  • 拟交感神经拟交感神经药,指与兴奋交感神经的效应相同的药物,也叫做拟交感药物。拟交感药的主要目的是兴奋肾上腺素受体。其中包括肾上腺素、去甲肾上腺素、麻黄碱及一些合成药如异丙肾上
  • 马尾藻约250种。马尾藻,是马尾藻科马尾藻属一类褐藻的总称,现约包括250个种。藻体分固着器、茎、叶、气囊四部分,雌雄同株或异株;成熟时在叶腋长出生殖托。马尾藻生长于中、低潮间带的
  • 罗曼语罗马语族(又称罗曼语族、拉丁语族),属于印欧语系,是从意大利语族衍生出来的现代语族,主要包括从拉丁语演化而来的现代诸语言。操罗马语族语言的人主要包括传统意义上的“欧洲拉丁
  • abbr class=abbr title=R24: 与皮肤接触将导致中毒R24/abbr警示性质标准词(英语:Risk Phrases,简写:R-phrases)是于《欧联指导标准67/548/EEC 附录III: 有关危险物品与其储备的特殊风险性质》里定义。该列表被集中并再出版于指导标准2001/
  • 哥穆尔卡瓦迪斯瓦夫·哥穆尔卡(波兰语:Władysław Gomułka;1905年2月6日-1982年9月1日),波兰政治家,1945年至1948年任波兰共产主义工人党(统一工人党前身)总书记。后因被指责有反苏倾向而被
  • 罗宾·范佩西罗宾·范佩西(荷兰语:Robin van Persie,1983年8月6日-),生于荷兰鹿特丹,荷兰已退役足球员,司职中锋。世界足坛最佳荷兰巨星之一。现职英国电信体育台足球评述员。范佩西在一个艺术之
  • 稳定性理论数学中的稳定性理论是指微分方程的解以及动态系统的轨迹在初始条件有小扰动时的稳定性。像热传导方程式就是稳定的偏微分方程,因为初始值的小扰动只会造成之后温度的小幅变化
  • 阿杜阿杜可以指:
  • 春日香音春日香音(日文:かすがかのん、2003年11月1日-)生于日本东京都,女性童星,隶属于日本电视台旗下的Nichi Park Productions。