皮尔森积差相关系数

✍ dations ◷ 2025-11-29 17:47:55 #皮尔森积差相关系数

在统计学中，皮尔逊积矩相关系数（英语：Pearson product-moment correlation coefficient，又称作 PPMCC或PCCs, 文章中常用r或Pearson's r表示）用于度量两个变量X和Y之间的相关程度（线性相关），其值介于-1与1之间。在自然科学领域中，该系数广泛用于度量两个变量之间的线性相关程度。它是由卡尔·皮尔逊从弗朗西斯·高尔顿在19世纪80年代提出的一个相似却又稍有不同的想法演变而来。这个相关系数也称作“皮尔森相关系数r”。两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商：上式定义了总体相关系数，常用希腊小写字母 ρ (rho) 作为代表符号。估算样本的协方差和标准差，可得到样本相关系数(样本皮尔逊系数)，常用英文小写字母 r 代表：r 亦可由 ( X i , Y i ) {displaystyle (X_{i},Y_{i})} 样本点的标准分数均值估算，得到与上式等价的表达式：其中 X i − X ¯ σ X {displaystyle {frac {X_{i}-{overline {X}}}{sigma _{X}}}} 、 X ¯ {displaystyle {overline {X}}} 及 σ X {displaystyle sigma _{X}} 分别是 X i {displaystyle X_{i}} 样本的标准分数、样本平均值和样本标准差。总体和样本皮尔逊系数的绝对值小于或等于1。如果样本数据点精确的落在直线上（计算样本皮尔逊系数的情况），或者双变量分布完全在直线上（计算总体皮尔逊系数的情况），则相关系数等于1或-1。皮尔逊系数是对称的：corr(X,Y) = corr(Y,X)。皮尔逊相关系数有一个重要的数学特性是，因两个变量的位置和尺度的变化并不会引起该系数的改变，即它该变化的不变量 (由符号确定)。也就是说，我们如果把X移动到a + bX和把Y移动到c + dY，其中a、b、c和d是常数，并不会改变两个变量的相关系数（该结论在总体和样本皮尔逊相关系数中都成立）。我们发现更一般的线性变换则会改变相关系数：参见之后章节对该特性应用的介绍。由于μX = E(X), σX2 = E = E(X2) − E2(X)，Y也类似, 并且故相关系数也可以表示成对于样本皮尔逊相关系数:以上方程给出了计算样本皮尔逊相关系数简单的单流程算法，但是其依赖于涉及到的数据，有时它可能是数值不稳定的。皮尔逊相关系数的变化范围为-1到1。系数的值为1意味着X 和 Y可以很好的由直线方程来描述，所有的数据点都很好的落在一条直线上，且 Y 随着 X 的增加而增加。系数的值为−1意味着所有的数据点都落在直线上，且 Y 随着 X 的增加而减少。系数的值为0意味着两个变量之间没有线性关系。更一般的, 我们发现，当且仅当 Xi and Yi 均落在他们各自的均值的同一侧，则(Xi − X)(Yi − Y) 的值为正。也就是说，如果Xi 和 Yi 同时趋向于大于, 或同时趋向于小于他们各自的均值，则相关系数为正。如果 Xi 和 Yi 趋向于落在他们均值的相反一侧，则相关系数为负。对于没有进行中心化的数据, 相关系数与两条可能的回归线y=gx(x) 和 x=gy(y) 夹角的余弦值一致。对于中心化过的数据 (也就是说, 数据移动一个样本平均值以使其均值为0), 相关系数也可以被视作由两个随机变量向量夹角 θ {displaystyle theta } 的余弦值（见下方）。一些人倾向于使用非中心化的相关系数 (non-Pearson-compliant) 。比较如下。例如，有5个国家的国民生产总值分别为 10, 20, 30, 50 和 80 亿美元。假设这5个国家 (顺序相同) 的贫困百分比分别为 11%, 12%, 13%, 15%, 和 18% 。令 x 和 y 分别等于包含上述5个数据的向量: x = (1, 2, 3, 5, 8) 和 y = (0.11, 0.12, 0.13, 0.15, 0.18)。利用通常的方法计算两个向量之间的夹角 θ {displaystyle theta } (参见数量积), 未中心化的相关系数是:我们发现以上的数据特意选定为完全相关: y = 0.10 + 0.01 x。于是，皮尔逊相关系数应该等于1。将数据中心化 (通过E(x) = 3.8移动 x 和通过 E(y) = 0.138 移动 y ) 得到 x = (−2.8, −1.8, −0.8, 1.2, 4.2) 和 y = (−0.028, −0.018, −0.008, 0.012, 0.042), 从中，一些著作的作者给出了某些解释相关系数的指南。然而, 所有这些标准从某种意义上说是武断的和不严格的。对相关系数的解释是依赖于具体的应用背景和目的的。例如，若是在运用高性能的仪器来验证一个物理定律实验这样的应用背景下，0.9的相关系数可能是很低的。但如果是应用在社会科学中，由于社会科学受到各种复杂多变因素影响，0.9的相关系数是相当高的。皮尔逊距离度量的是两个变量X和Y，它可以根据皮尔逊系数定义成我们可以发现，皮尔逊系数落在 [ − 1 , 1 ] {displaystyle } ，而皮尔逊距离落在 [ 0 , 2 ] {displaystyle } 。基于皮尔逊相关系数的统计推断通常关注以下两个目标。显著性检验提供了一种假设检验和构造置信区间的直接方法。对皮尔逊相关系数的显著性检验包括以下两个步骤：为了完成显著性检验，需要多次重复步骤(i)和(ii) 。显著性检验的P值是由测试数据除以步骤（ii）得到的r，其中r大于由原始数据计算出的皮尔逊相关系数。在这里“大”可能是绝对值比较大或者是数值比较大，这取决于测试使用的是双边检验（英语：two-tailed test）或者是单边检验（英语：one-tailed test）。自助抽样法可以被用来构造皮尔逊系数的置信区间。在"非参数"的自助抽样法中，“可重复”地从观测数据集n中重新采样n 对的 (xi, yi) 数据，用来计算相关系数r。这个过程重复了大量次数,。重新采样后数据的 r值的分布被用来估计统计学上的样本分布（英语：sampling distribution）。ρ的95%的置信区间可以被定义成重新采样样本 r值的%2.5到%97.5之间。对于近似高斯分布的数据，皮尔逊相关系数的样本分布（英语：sampling distribution）近似于自由度为N − 2的t分布。特别地，如果两个变量服从双变量正态分布，变量也会服从不相关的t分布。如果样本容量不是特别小，这个结论也大致成立，即便观测数据不是正态分布的。如果需要构建置信区间和进行有力的分析，还需要采用如下的可逆变换或者，也可以采用大量采样数据的方法。早期对样本相关系数的研究得益于R. A. Fisher和A. K. Gayen.的工作。另一篇早期的论文给出了在小样本的情况下总体相关系数 ρ的图表, 并讨论了相关的计算方法。准确的双变量样本相关系数的分布是其中 Γ {displaystyle mathbf {Gamma } } 是伽玛函数， 2 F 1 ( a , b ; c ; z ) {displaystyle ,mathbf {_{2}F_{1}} (a,b;c;z)} 是高斯超几何函数。注意到 E ( r ) = ρ − ρ ( 1 − ρ 2 ) 2 ( n − 1 ) + ⋯ {displaystyle Eleft(rright)=rho -{frac {rho left(1-rho ^{2}right)}{2left(n-1right)}}+cdots } , 因此 r 是 ρ {displaystyle ,rho } 的一个有偏估计。一种获得无偏估计的方法是解 ρ {displaystyle ,rho } 的方程 r = E ( r ) = ρ − ρ ( 1 − ρ 2 ) 2 ( n − 1 ) {displaystyle r=Eleft(rright)=rho -{frac {rho left(1-rho ^{2}right)}{2left(n-1right)}}} 。然而，解 ρ ˘ = r [ 1 + 1 − r 2 2 ( n − 1 ) ] {displaystyle {breve {rho }}=rleft} 是次优的。一种无偏估计, 可以从 n较大情况下的最小方差和有偏序列 1 n − 1 {displaystyle {frac {1}{n-1}}} , 通过最大化 log ⁡ f ( r ) {displaystyle log {fleft(rright)}} , 也就是 ρ ^ = r [ 1 − 1 − r 2 2 ( n − 1 ) ] {displaystyle {hat {rho }}=rleft} 获得。特殊情况下，当 ρ = 0 {displaystyle ,rho =0} 时，分布可以被写成其中 B {displaystyle mathbf {B} } 是贝塔函数。实际应用中, 与ρ相关的置信区间和假设检验通常是通过费舍尔变换获得如果F(r)是r的费舍尔变换，n 是样本容量，那么F(r)近似服从正态分布也就是标准分是对 ρ = ρ 0 {displaystyle rho =rho _{0}} 进行零假设，可以设想样本数据对是独立同分布并且服从双变量正态分布。因此P值估计可以从正态分布概率表中获得。比如，如果观测数据 z = 2.2，并且要用双边p值对 ρ = 0 {displaystyle rho =0} 进行零假设检验，p值是 2·Φ(−2.2) = 0.028，其中Φ是正态分布的累积分布函数。为了获得ρ的信赖区间，首先，我们应该计算 F( ρ {displaystyle rho } )的信赖区间：通过可逆Fisher变换可以获得相关尺度上的区间。举例来说，假设我们观测到 r = 0.3，样本容量 n=50，并且我们期望获得ρ的95%的信赖区间。变换后的值是artanh(r) = 0.30952，所以在变换尺度上的信赖区间是 0.30952 ± 1.96/√47，或者 (0.023624, 0.595415)。变换回相关尺度上是 (0.024, 0.534)。样本相关系数的平方, 亦称作 coefficient of determination, 利用简单线性回归估计由X引起的 Y的变化。一开始, Yi 围绕它们平均值上的变化可以分解成其中 Y ^ i {displaystyle {hat {Y}}_{i}} 是作回归分析时的适应值。整理后得两个被加数是由X (右边)引起的Y的变化和不是由X (左边) 引起的变化。接下来, 我们利用最小方差回归模型, 使 Y ^ i {displaystyle {hat {Y}}_{i}} 和 Y i − Y ^ i {displaystyle Y_{i}-{hat {Y}}_{i}} 的样本协方差为0。于是, 观测数据和适应值的样本相关系数可以被写成r ( Y , Y ^ ) = ∑ i ( Y i − Y ¯ ) ( Y ^ i − Y ¯ ) ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i ( Y i − Y ^ i + Y ^ i − Y ¯ ) ( Y ^ i − Y ¯ ) ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i [ ( Y i − Y ^ i ) ( Y ^ i − Y ¯ ) + ( Y ^ i − Y ¯ ) 2 ] ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i ( Y ^ i − Y ¯ ) 2 ∑ i ( Y i − Y ¯ ) 2 ⋅ ∑ i ( Y ^ i − Y ¯ ) 2 = ∑ i ( Y ^ i − Y ¯ ) 2 ∑ i ( Y i − Y ¯ ) 2 . {displaystyle {begin{aligned}r(Y,{hat {Y}})&={frac {sum _{i}(Y_{i}-{bar {Y}})({hat {Y}}_{i}-{bar {Y}})}{sqrt {sum _{i}(Y_{i}-{bar {Y}})^{2}cdot sum _{i}({hat {Y}}_{i}-{bar {Y}})^{2}}}}\&={frac {sum _{i}(Y_{i}-{hat {Y}}_{i}+{hat {Y}}_{i}-{bar {Y}})({hat {Y}}_{i}-{bar {Y}})}{sqrt {sum _{i}(Y_{i}-{bar {Y}})^{2}cdot sum _{i}({hat {Y}}_{i}-{bar {Y}})^{2}}}}\&={frac {sum _{i}}{sqrt {sum _{i}(Y_{i}-{bar {Y}})^{2}cdot sum _{i}({hat {Y}}_{i}-{bar {Y}})^{2}}}}\&={frac {sum _{i}({hat {Y}}_{i}-{bar {Y}})^{2}}{sqrt {sum _{i}(Y_{i}-{bar {Y}})^{2}cdot sum _{i}({hat {Y}}_{i}-{bar {Y}})^{2}}}}\&={sqrt {frac {sum _{i}({hat {Y}}_{i}-{bar {Y}})^{2}}{sum _{i}(Y_{i}-{bar {Y}})^{2}}}}.end{aligned}}}于是是由X的线性方程引起的 Y 的平均变化。总体皮尔逊相关系数被定义成矩, 因此任意的双变量概率分布是非零的，也就是说总体协方差和边缘总体方差是由定义的。一些概率分布，诸如柯西分布有未定义的方差，因此X or Y 如果服从这种分布，ρ便是未定义的。在实际应用中, 如果有数据被怀疑服从重尾分布, 这个条件就需要引起重视。然而, 相关系数的存在性通常并需要太介意; 例如, 如果分布是有界的, ρ 便总是有意义的。在双变量正态分布的案例中，只要边缘均值和方差是已知的，总体相关系数描述的是便是联合分布。在其他的双变量分布中，这个结论并不正确。总之, 不论两个随机变量的联合分布是不是正态的，相关系数在研究的它们之间的线性依赖性都是有帮助的。样本相关系数是对两个正态分布变量总体相关系数的最大似然估计并且是渐进无偏的和有效的, 这也就是说如果数据是正态的并且样本容量是中等的或大量的，就不可能构造出一个比样本相关系数更准确的估计。对于非正态的数据, 样本相关系数大致上是无偏的，但有可能是无效的。只要样本均值、方差和协方差是一致的（当大数定理可以应用的情况下），样本相关系数是总体相关系数的一致估计。与其他常用的统计指标相似的, 样本指标r 不是稳健的。因此如果由异常值，这个指标是有误导性的。特别的, PMCC 既不是稳健分布的, 也不是异常值稳健的 (see Robust statistics#Definition)。对X 和 Y的散点图的观察可以很明显的揭示出缺乏稳健性的情况,在这种情况下，采用的联合的方法是比较明智的。注意到，虽然大多数稳健的估计器从某种程度上说都是有统计依赖的, 它们总的来说，在总体相关系数的尺度上都是可辨的。基于皮尔逊相关系数的统计推断对数据分布式敏感的。如果数据大致是正态分布的，可以使用精确检验和基于Fisher变换的渐进检验，但是它们可能由误导性。在一些情况下, 自助采样可以用来构造置信区间。同时，重复抽样可以应用在假设检验中。这些非参数化的方法在某些情况下，如双变量正态分布不能保证时，可能得出更有意义的结论。然而，这些方法的标准形式依赖于数据的可交换性。这也就意味着被分析的数据时没有顺序的和组别的。因为这有可能会影响估计相关系数的特性。分层分析是一种容许缺少双变量正态性的方法，或者说是用来隔离相互关联因素的关联结果。如果 W 代表聚类成员或者其它需要被控制的因素，我们可以分离基于W的数据, 然后我们可以再每个层里计算相关系数。当我们控制变量W，我们便能在层的等级上估计与所有相关系数相关的各自的相关系数。假设我们要计算关联性的观测数据有着不同的重要程度，表示成权值向量 w。利用权值向量w (总长度 n)计算向量 x 和 y 的相关系数,我们总是可以通过一定的线性变换去除随机变量之间的相关性, 即便变量间的关系是非线性的。 Cox & Hinkley给出了在总体相关系数中的表达形式。与此相应的，样本相关系数也存在这样的结论，使得样本相关系数变为0。假设长度为 n 的随机变量被随机采样 m 次。令 X 是一个矩阵，其中 X i , j {displaystyle X_{i,j}} 是第i次采样的第 j个变量。令 Z m , m {displaystyle Z_{m,m}} 是一个所有元素都为1的 m * m 的方阵。那么 D 是变换后的数据，使得随机变量的均值为0, 并且 T 是变换后的数据，使得所有的变量均值为0和与除自身外的其他变量的相关系数为0 - T的矩作为身份矩阵。为了得到单位方差，还需要除以标准差。虽然变换后的数据有可能不是独立的，但他们一定是不相关的。其中，指数-1/2表示矩阵置换后的矩阵方根。T的协方差被当做身份矩阵。如果新的样本数据x是n个元素的向量, 那么相同的变换可以应用到x中以获得变换向量d和t：这个去相关性的方法被应用到多变量的主成分分析中。反射相关系数是皮尔逊相关系数的变体，数据并不是以他们的均值为中心。总体反射相关系数是反射相关系数是对称的, 但在如下的变换中并不是不变的样本反射相关系数是样本加权相关系数是规模的相关性是一个变种的皮尔森相关数据的范围限制故意以受控的方式揭示时间序列之间的快速成分的相关性。比例相关的定义是在短数据段的平均相关性。对于给定规模S，令K为可以适应信号的总长度的段数：比例相关的整个信号的rs的计算公式为rs为k的部分皮尔森相关系数。通过对参数s的选择，减少值的范围和较长的时间尺度上的相关性被过滤掉，只有在很短的时间尺度上的相关性被发现。因此，慢分量的贡献被删除，快分量被保留。强噪声条件下，提取相关系数两个随机变量之间的是平凡的，特别是在典型相关分析报告在退化的相关值的情况下，由于存在大量噪声。一种概括的方法在其他地方给出。