首页 >
主成分分析
✍ dations ◷ 2024-12-22 20:30:56 #主成分分析
在多元统计分析中,主成分分析(英语:Principal components analysis,PCA)是一种统计分析、简化数据集的方法。它利用正交变换来对一系列可能相关的变量的观测值进行线性变换,从而投影为一系列线性不相关变量的值,这些不相关变量称为主成分(Principal Components)。具体地,主成分可以看做一个线性方程,其包含一系列线性系数来指示投影方向。PCA对原始数据的正则化或预处理敏感(相对缩放)。基本思想:主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。这样低阶成分往往能够保留住数据的最重要方面。但是,这也不是一定的,要视具体应用而定。由于主成分分析依赖所给数据,所以数据的准确性对分析结果影响很大。主成分分析由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型,在原理上与主轴定理相似。之后在1930年左右由哈罗德·霍特林独立发展并命名。依据应用领域的不同,在信号处理中它也叫做离散K-L 转换(discrete Karhunen–Loève transform (KLT))。其方法主要是通过对协方差矩阵进行特征分解,以得出数据的主成分(即特征向量)与它们的权值(即特征值)。PCA是最简单的以特征量分析多元统计分布的方法。其结果可以理解为对原数据中的方差做出解释:哪一个方向上的数据值对方差的影响最大?换而言之,PCA提供了一种降低数据维度的有效办法;如果分析者在原数据中除掉最小的特征值所对应的成分,那么所得的低维度数据必定是最优化的(也即,这样降低维度必定是失去讯息最少的方法)。主成分分析在分析复杂数据时尤为有用,比如人脸识别。PCA是最简单的以特征量分析多元统计分布的方法。通常情况下,这种运算可以被看作是揭露数据的内部结构,从而更好的解释数据的变量的方法。如果一个多元数据集能够在一个高维数据空间坐标系中被显现出来,那么PCA就能够提供一幅比较低维度的图像,这幅图像即为在讯息最多的点上原对象的一个‘投影’。这样就可以利用少量的主成分使得数据的维度降低了。PCA跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定底层结构,求得微小差异矩阵的特征向量。PCA的数学定义是:一个正交化线性变换,把数据变换到一个新的坐标系统中,使得这一数据的任何投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上,依次类推。定义一个n × m的矩阵, XT为去平均值(以平均值为中心移动至原点)的数据,其行为数据样本,列为数据类别(注意,这里定义的是XT 而不是X)。则X的奇异值分解为X = WΣVT,其中m × m矩阵W是XXT的特征向量矩阵, Σ是m × n的非负矩形对角矩阵,V是n × n的XTX的特征向量矩阵。据此,当 m < n − 1时,V 在通常情况下不是唯一定义的,而Y 则是唯一定义的。W 是一个正交矩阵,YTWT=XT,且YT的第一列由第一主成分组成,第二列由第二主成分组成,依此类推。为了得到一种降低数据维度的有效办法,我们可以利用WL把 X 映射到一个只应用前面L个向量的低维空间中去:其中
Σ
L
=
I
L
×
m
Σ
{displaystyle mathbf {Sigma _{L}} =mathbf {I} _{Ltimes m}mathbf {Sigma } }
,且
I
L
×
m
{displaystyle mathbf {I} _{Ltimes m}}
为
L
×
m
{displaystyle Ltimes m}
的单位矩阵。X 的单向量矩阵W相当于协方差矩阵的特征向量 C = X XT,在欧几里得空间给定一组点数,第一主成分对应于通过多维空间平均点的一条线,同时保证各个点到这条直线距离的平方和最小。去除掉第一主成分后,用同样的方法得到第二主成分。依此类推。在Σ中的奇异值均为矩阵 XXT的特征值的平方根。每一个特征值都与跟它们相关的方差是成正比的,而且所有特征值的总和等于所有点到它们的多维空间平均点距离的平方和。PCA提供了一种降低维度的有效办法,本质上,它利用正交变换将围绕平均点的点集中尽可能多的变量投影到第一维中去,因此,降低维度必定是失去讯息最少的方法。PCA具有保持子空间拥有最大方差的最优正交变换的特性。然而,当与离散余弦变换相比时,它需要更大的计算需求代价。非线性降维技术相对于PCA来说则需要更高的计算要求。PCA对变量的缩放很敏感。如果我们只有两个变量,而且它们具有相同的样本方差,并且成正相关,那么PCA将涉及两个变量的主成分的旋转。但是,如果把第一个变量的所有值都乘以100,那么第一主成分就几乎和这个变量一样,另一个变量只提供了很小的贡献,第二主成分也将和第二个原始变量几乎一致。这就意味着当不同的变量代表不同的单位(如温度和质量)时,PCA是一种比较武断的分析方法。但是在Pearson的题为
"On Lines and Planes of Closest Fit to Systems of Points in Space"的原始文件里,是假设在欧几里得空间里不考虑这些。一种使PCA不那么武断的方法是使用变量缩放以得到单位方差。通常,为了确保第一主成分描述的是最大方差的方向,我们会使用平均减法进行主成分分析。如果不执行平均减法,第一主成分有可能或多或少的对应于数据的平均值。另外,为了找到近似数据的最小均方误差,我们必须选取一个零均值。假设零经验均值,数据集 X 的主成分w1可以被定义为:为了得到第 k个主成分,必须先从X中减去前面的
k
−
1
{displaystyle k-1}
个主成分:然后把求得的第k个主成分带入数据集,得到新的数据集,继续寻找主成分。PCA相当于在气象学中使用的经验正交函数(EOF),同时也类似于一个线性隐层神经网络。 隐含层 K 个神经元的权重向量收敛后,将形成一个由前 K 个主成分跨越空间的基础。但是与PCA不同的是,这种技术并不一定会产生正交向量。PCA是一种很流行且主要的的模式识别技术。然而,它并不能最优化类别可分离性 。另一种不考虑这一点的方法是线性判别分析。如上所述,主成分分析的结果依赖于变量的缩放。主成分分析的适用性受到由它的派生物产生的某些假设 的限制。通过使用降维来保存大部分数据信息的主成分分析的观点是不正确的。确实如此,当没有任何假设信息的信号模型时,主成分分析在降维的同时并不能保证信息的不丢失,其中信息是由香农熵来衡量的。
基于假设得
x
=
s
+
n
{displaystyle mathbf {x} =mathbf {s} +mathbf {n} }
也就是说,向量 x 是含有信息的目标信号 s 和噪声信号 n 之和,从信息论角度考虑主成分分析在降维上是最优的。特别地,Linsker证明了如果 s 是高斯分布,且 n 是 与密度矩阵相应的协方差矩阵的高斯噪声,以下是使用统计方法计算PCA的详细说明。但是请注意,如果利用奇异值分解(使用标准的软件)效果会更好。我们的目标是把一个给定的具有 M 维的数据集X 变换成具有较小维度 L的数据集Y。现在要求的就是矩阵Y,Y是矩阵X Karhunen–Loève变换。:
Y
=
K
L
T
{
X
}
{displaystyle mathbf {Y} =mathbb {KLT} {mathbf {X} }}假设有一组 M 个变量的观察数据,我们的目的是减少数据,使得能够用L 个向量来描述每个观察值,L < M。进一步假设,该数据被整理成一组具有N个向量的数据集,其中每个向量都代表M 个变量的单一观察数据。对于在最大限度地减少近似数据的均方误差的基础上找到一个主成分来说,均值减去法是该解决方案的不可或缺的组成部分 。因此,我们继续如下步骤:其中h是一个全 1s:的1 × N 的行向量其中
E
{displaystyle mathbb {E} }
为期望值⊗
{displaystyle otimes }
是最外层运算符∗
{displaystyle * }
是共轭转置运算符。请注意,如果B完全由实数组成,那么共轭转置与正常的转置一样。
相关
- 巴巴拉·麦克林托克芭芭拉·麦克林托克(英语:Barbara McClintock,1902年6月16日-1992年9月2日),美国著名女性细胞遗传学家。1983年获得诺贝尔生理学或医学奖,是首位没有共同得奖者、单独获得该奖项的
- 单纯疱疹单纯疱疹(Herpes Simplex,源自于希腊文“ἕρπης”,意为“潜伏”)是由单纯疱疹病毒Ⅰ型(HSV-1)和Ⅱ型(HSV-2)引起的病毒性疾病。通常可以根据病毒感染位置的不同,可以分为唇疱疹、
- 艾尔帕索艾尔帕索(西班牙语:El Paso)是美国德克萨斯州艾尔帕索县县治,位于德州极西部,隔格兰德河与墨西哥的华雷斯城相望。是该州第六大城、全国第十九大城市 (2006年估计人口为609,415)。
- 文学美国文学(英语:American literature 或 Literature of the United States)指在美国产生的文学(也包括建国前殖民地时期的文学作品)。用英语写成的美国文学可视为英语文学的一部分
- 卵形疟原虫卵形疟原虫(Plasmodium ovale)是一种疟原虫,可引发卵形疟,和另外两种主要的疟原虫(恶性疟原虫和间日疟原虫)相比较为少见。一般在感染后12-20天内发作,但有潜伏4年的案例存在。每次
- 生活质量指数经济学人信息社的最佳出生地指数(曾称生活质量指数)是一个使用独特方法来计算的指数,目的是得出各国能提供健康,安全,富裕生活的程度,得分因素包括主观的生活满意度调查和客观的生
- 雨季雨季,指在降水量有显著季节差异的地区,年降水量主要发生的月份,通常持续一个或多个月 。拥有雨季的地区分布在热带和亚热带。根据柯本气候分类法,对于热带气候,雨季定义为平均降
- 古典时代古典时代(或称为古典时期、古典古代、古风时期,英语:Classical antiquity)是对希腊罗马世界(英语:Greco-Roman world)(以地中海为中心,包括古希腊和古罗马等一系列文明)的长期文化史的
- 清教徒革命英国内战(英语:English Civil War)是指1642年至1651年发生在英国议会派(“圆颅党”)与保皇派(“骑士党(英语:Cavalier)”)之间的一系列武装冲突及政治斗争。辉格派历史学家称之为清教
- 一夫一妻单配偶制包含一夫一妻制,是指一种两两配对,每个个体只拥有单一配偶的关系,关系中两者一生中,或在生命中任何一个时间,只会与对方维持关系。单配偶制有别于多配偶制。单配偶制在动