主成分分析

✍ dations ◷ 2025-11-29 17:13:17 #主成分分析

在多元统计分析中，主成分分析（英语：Principal components analysis，PCA）是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换，从而投影为一系列线性不相关变量的值，这些不相关变量称为主成分（Principal Components）。具体地，主成分可以看做一个线性方程，其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感（相对缩放）。基本思想：主成分分析经常用于减少数据集的维数，同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分，忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是，这也不是一定的，要视具体应用而定。由于主成分分析依赖所给数据，所以数据的准确性对分析结果影响很大。主成分分析由卡尔·皮尔逊于1901年发明，用于分析数据及建立数理模型，在原理上与主轴定理相似。之后在1930年左右由哈罗德·霍特林独立发展并命名。依据应用领域的不同，在信号处理中它也叫做离散K-L 转换（discrete Karhunen–Loève transform (KLT)）。其方法主要是通过对协方差矩阵进行特征分解，以得出数据的主成分（即特征向量）与它们的权值（即特征值）。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释：哪一个方向上的数据值对方差的影响最大？换而言之，PCA提供了一种降低数据维度的有效办法；如果分析者在原数据中除掉最小的特征值所对应的成分，那么所得的低维度数据必定是最优化的（也即，这样降低维度必定是失去讯息最少的方法）。主成分分析在分析复杂数据时尤为有用，比如人脸识别。PCA是最简单的以特征量分析多元统计分布的方法。通常情况下，这种运算可以被看作是揭露数据的内部结构，从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来，那么PCA就能够提供一幅比较低维度的图像，这幅图像即为在讯息最多的点上原对象的一个‘投影’。这样就可以利用少量的主成分使得数据的维度降低了。PCA跟因子分析密切相关，并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构，求得微小差异矩阵的特征向量。PCA的数学定义是：一个正交化线性变换，把数据变换到一个新的坐标系统中，使得这一数据的任何投影的第一大方差在第一个坐标（称为第一主成分）上，第二大方差在第二个坐标（第二主成分）上，依次类推。定义一个n × m的矩阵, XT为去平均值（以平均值为中心移动至原点）的数据，其行为数据样本，列为数据类别（注意，这里定义的是XT 而不是X）。则X的奇异值分解为X = WΣVT，其中m × m矩阵W是XXT的特征向量矩阵， Σ是m × n的非负矩形对角矩阵，V是n × n的XTX的特征向量矩阵。据此，当 m < n − 1时，V 在通常情况下不是唯一定义的，而Y 则是唯一定义的。W 是一个正交矩阵，YTWT=XT，且YT的第一列由第一主成分组成，第二列由第二主成分组成，依此类推。为了得到一种降低数据维度的有效办法，我们可以利用WL把 X 映射到一个只应用前面L个向量的低维空间中去：其中 Σ L = I L × m Σ {displaystyle mathbf {Sigma _{L}} =mathbf {I} _{Ltimes m}mathbf {Sigma } } ，且 I L × m {displaystyle mathbf {I} _{Ltimes m}} 为 L × m {displaystyle Ltimes m} 的单位矩阵。X 的单向量矩阵W相当于协方差矩阵的特征向量 C = X XT,在欧几里得空间给定一组点数，第一主成分对应于通过多维空间平均点的一条线，同时保证各个点到这条直线距离的平方和最小。去除掉第一主成分后，用同样的方法得到第二主成分。依此类推。在Σ中的奇异值均为矩阵 XXT的特征值的平方根。每一个特征值都与跟它们相关的方差是成正比的，而且所有特征值的总和等于所有点到它们的多维空间平均点距离的平方和。PCA提供了一种降低维度的有效办法，本质上，它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去，因此，降低维度必定是失去讯息最少的方法。PCA具有保持子空间拥有最大方差的最优正交变换的特性。然而，当与离散余弦变换相比时，它需要更大的计算需求代价。非线性降维技术相对于PCA来说则需要更高的计算要求。PCA对变量的缩放很敏感。如果我们只有两个变量，而且它们具有相同的样本方差，并且成正相关，那么PCA将涉及两个变量的主成分的旋转。但是，如果把第一个变量的所有值都乘以100，那么第一主成分就几乎和这个变量一样，另一个变量只提供了很小的贡献，第二主成分也将和第二个原始变量几乎一致。这就意味着当不同的变量代表不同的单位（如温度和质量）时，PCA是一种比较武断的分析方法。但是在Pearson的题为 "On Lines and Planes of Closest Fit to Systems of Points in Space"的原始文件里，是假设在欧几里得空间里不考虑这些。一种使PCA不那么武断的方法是使用变量缩放以得到单位方差。通常，为了确保第一主成分描述的是最大方差的方向，我们会使用平均减法进行主成分分析。如果不执行平均减法，第一主成分有可能或多或少的对应于数据的平均值。另外，为了找到近似数据的最小均方误差，我们必须选取一个零均值。假设零经验均值，数据集 X 的主成分w1可以被定义为：为了得到第 k个主成分，必须先从X中减去前面的 k − 1 {displaystyle k-1} 个主成分：然后把求得的第k个主成分带入数据集，得到新的数据集，继续寻找主成分。PCA相当于在气象学中使用的经验正交函数（EOF）,同时也类似于一个线性隐层神经网络。隐含层 K 个神经元的权重向量收敛后，将形成一个由前 K 个主成分跨越空间的基础。但是与PCA不同的是，这种技术并不一定会产生正交向量。PCA是一种很流行且主要的的模式识别技术。然而，它并不能最优化类别可分离性。另一种不考虑这一点的方法是线性判别分析。如上所述，主成分分析的结果依赖于变量的缩放。主成分分析的适用性受到由它的派生物产生的某些假设的限制。通过使用降维来保存大部分数据信息的主成分分析的观点是不正确的。确实如此，当没有任何假设信息的信号模型时，主成分分析在降维的同时并不能保证信息的不丢失，其中信息是由香农熵来衡量的。基于假设得 x = s + n {displaystyle mathbf {x} =mathbf {s} +mathbf {n} } 也就是说，向量 x 是含有信息的目标信号 s 和噪声信号 n 之和，从信息论角度考虑主成分分析在降维上是最优的。特别地，Linsker证明了如果 s 是高斯分布，且 n 是与密度矩阵相应的协方差矩阵的高斯噪声，以下是使用统计方法计算PCA的详细说明。但是请注意，如果利用奇异值分解（使用标准的软件）效果会更好。我们的目标是把一个给定的具有 M 维的数据集X 变换成具有较小维度 L的数据集Y。现在要求的就是矩阵Y，Y是矩阵X Karhunen–Loève变换。: Y = K L T { X } {displaystyle mathbf {Y} =mathbb {KLT} {mathbf {X} }}假设有一组 M 个变量的观察数据，我们的目的是减少数据，使得能够用L 个向量来描述每个观察值，L < M。进一步假设，该数据被整理成一组具有N个向量的数据集，其中每个向量都代表M 个变量的单一观察数据。对于在最大限度地减少近似数据的均方误差的基础上找到一个主成分来说，均值减去法是该解决方案的不可或缺的组成部分。因此，我们继续如下步骤：其中h是一个全 1s:的1 × N 的行向量其中 E {displaystyle mathbb {E} } 为期望值⊗ {displaystyle otimes } 是最外层运算符∗ {displaystyle * } 是共轭转置运算符。请注意，如果B完全由实数组成，那么共轭转置与正常的转置一样。

相关

时间时间是一种尺度，在物理定义是标量，借着时间，事件发生之先后可以按过去-现在-未来之序列得以确定（时间点），也可以衡量事件持续的期间以及事件之间和间隔长短（时间段）。时间是除了空
吉法酯吉法酯（英语：Gefarnate，或译为合欢香叶酯）是一种用于治疗胃及十二指肠溃疡的药物，也可用于治疗干眼症。
列支敦士登列支敦士登国家图书馆（德语：Liechtensteinische Landesbibliothek）是列支敦士登的国家图书馆，它也是该国的法定送存图书馆，建立于1961年，位于首都瓦都兹，由列支敦士登国家图书馆基
蓝田人蓝田人（学名：Homo erectus lantianensis）是中国的直立人化石。通常称作蓝田猿人，学名直立人蓝田亚种。生活的时代是更新世中期、旧石器时代早期。蓝田人在1963年中国陕西省在蓝
5-雄烯二醇雄烯二醇（英语：Androstenediol，或称为5-雄烯二醇 5-androstenediol、雄-5-烯-3,17-二醇 androst-4-ene-3,17-diol，缩写A5、Δ5-diol）是一种活性较弱的内源性雄激素，也是由脱氢表雄
布氏烧瓶布氏烧瓶，又称抽滤瓶、北里烧瓶（Kitasato flask，纪念北里柴三郎），是实验室中使用的一种玻璃器皿，为烧瓶的一种。配合布氏漏斗过滤用。发明者为1907年诺贝尔化学奖获得者爱德华·毕
三甲胺三甲胺（Trimethylamine，简写TMA），分子式N(CH3)3，属有机化合物，也是最简单的叔胺类化合物。三甲胺为无色气体，比空气重、吸湿、有毒且易燃。低浓度的三甲胺气体具有强烈的鱼腥气味，高
皮加勒区皮加勒区（Pigalle）是巴黎环绕皮加勒广场的地区，位于巴黎第九区和巴黎十八区，得名于雕塑家让·巴蒂斯特·皮加勒（Jean-Baptiste Pigalle）。皮加勒是一个著名的观光区，皮加勒广场和主
石广玉石广玉（1942年10月－），中国大气物理学家。出生于山东淄博。中国科学院大气物理研究所研究员。1968年毕业于山东大学物理系，1982年于日本东北大学获理学博士学位。2011年当选为中国
村镇村镇，汉语中指介于乡村和集镇之间的一种聚落，通常是农村社区中居民建筑集中和成片分布地区，具备一定的商业基础，居住人口相对农村一般地区密度大。英文之hamlet在汉译时，多译作“