核主成分分析

✍ dations ◷ 2025-11-25 06:53:13 #多变量统计,信号处理,机器学习算法

核主成分分析(英语:kernel principal component analysis,简称kernel PCA)是多变量统计领域中的一种分析方法,是使用核方法(英语:Kernel method)对主成分分析的非线性扩展,即将原数据通过核映射到再生核希尔伯特空间(英语:Reproducing kernel Hilbert space)后再使用原本线性的主成分分析。

线性PCA对于中心化后的数据进行分析,即

其中 x i {\displaystyle \mathbf {x} _{i}} 个数据点在 d < N {\displaystyle d<N} 个数据点 x i {\displaystyle \mathbf {x} _{i}} 维空间

中,就能很容易地构建一个超平面将数据点作任意聚类。不过由于经 Φ {\displaystyle \Phi } 中每一列的个元素代表了转换后的一个数据点与所有个数据点的点积。

由于我们并不在特征空间中进行计算,核PCA方法不直接计算主成分,而是计算数据点在这些主成分上的投影。特征空间中的一点在第k个主成分 V k {\displaystyle V^{k}} 为数据点的数量, λ {\displaystyle \lambda } a {\displaystyle \mathbf {a} } 则分别为 K {\displaystyle K} 的特征值与特征向量。为了归一化 a k {\displaystyle \mathbf {a} ^{k}} ,我们要求

值得注意的是,无论是否在原空间中对 x {\displaystyle x} 中心化,我们无法保证数据在特征空间中是中心化的。由于PCA要求对数据中心化,我们可以对K“中心化”:

其中 1 N {\displaystyle \mathbf {1_{N}} } 代表一个每个元素值皆为 1 / N {\displaystyle 1/N} N × N {\displaystyle N\times N} 矩阵。于是我们可以使用 K {\displaystyle K'} 进行前述的核PCA计算。

在使用核PCA时,还有一点值得注意。在线性PCA中,我们可以通过特征值的大小对特征向量进行排序,以度量每个主成分所能够解释的数据方差。这对于数据降维十分有用,而这一技巧也可以用在核PCA中。不过,在实践中有时会发现得到所有方差皆相同,这通常是源于错误选择了核的尺度。

在实践中,大数据集会使K变得很大,从而导致存储问题。一种解决方式是先对数据集聚类,然后再对每一类的均值进行核PCA计算。有时即便使用此种方法仍会导致相对很大的K,此时我们可以只计算K中最大的P个特征值及相对应的特征向量。

考虑图中所示的三组同心点云,我们试图使用核PCA识别这三组。图中各点的颜色并不是算法的一部分,仅用于展示各组数据点在变换前后的位置。

首先,我们使用核

进行核PCA处理,得到的结果如第二张图所示。

其次,我们再使用高斯核

该核是数据接近程度的一种度量,当数据点重合时为1,而当数据点相距无限远时则为0。结果为第三张图所示。

此时我们注意到,仅通过第一主成分就可以区别这三组数据点。而这对于线性PCA而言是不可实现的,因而线性PCA只能在给定维(此处为二维)空间中操作,而此时同心点云是线性不可分的。

核PCA方法还可用于新奇检测(novelty detection)与数据降噪等。

相关

  • 皮肤病学皮肤科(dermatology)是医学上治疗皮肤疾病的专门分支。全身的皮肤面积广大,因此皮肤是人体最大的器官。 皮肤病学是研究皮肤的结构、功能和疾病的学科,在广义上,还包含对头发、指
  • 龙部,为汉字索引中的部首之一,康熙字典214个部首中的第二百一十二个(十六划的则为第一个)。就正体中文中,龙部归于十六划部首,而简体中文则归在五划。龙部通常从左、上、下方为部
  • 填字游戏填字游戏是一种常见的纸上益智游戏。游戏一般给出一个矩形的表格。这个表格被分割为若干个大小相同的方格,方格的颜色有白色与黑色两种。白色的方格组成一些交叉的行与列,行列
  • 塔西姆·辛塔西姆·辛(印地语:Tarsem Dhandwar Singh,1961年5月26日-)是一名印度导演,涉及领域有电影、MV和商业广告。他生于印度,父亲是一名飞机技师。他先在印度西姆拉上学,后来毕业于加州帕
  • 郎雄郎雄(1930年1月1日-2002年5月2日),本名郎益三,台湾电影演员,满族,江苏省宿迁县人。郎雄的演艺生涯开始于军中的剧团,演技成熟老练,深刻而富情感,多半演出父亲或硬汉角色,在正反多种角色
  • 阿修罗 (印度神话)印度教神话的阿修罗(梵语:असुर),义为大力神,是一群追求力量的神族,与提婆神族对抗,有时被视为暴力之神。阿修罗族及提婆族(包括那伽族)都是迦叶波的后代。最早期的吠陀文献记载提
  • 塔皮奥·黑基莱塔皮奥·黑基莱(芬兰语:Tapio Heikkilä;1990年8月4日-)是一位芬兰足球运动员。在场上的位置是后卫。他现在效力于芬兰足球超级联赛球队HJK赫尔辛基足球俱乐部。他也代表芬兰国家
  • 三街河三街河,位于中华人民共和国云南省西部,是元江上游礼社江段左岸支流,发源于南华县西部五街镇以南的鸡子地,向南流入楚雄市,东南流至三街镇转西南,经八角镇后汇入礼社江。河流全长46
  • 马吕斯定律马吕斯定律(Malus' law)表明,照射偏振光于偏振片,则透射光的辐照度 I {\displaystyle I} 为:332-333其中,如右图所示,
  • 基督的最后诱惑《基督的最后诱惑》(希腊语:;罗马化:;英语: 或 )是希腊作家尼可斯·卡赞扎基斯所写的一部历史小说,于1955年出版,英文版则于1960年出版,由平民生活开始讲述耶稣基督的一生。基督的最后