判别分析

✍ dations ◷ 2025-12-07 17:12:08 #判别分析

线性判别分析 (LDA)是对费舍尔的线性鉴别方法的归纳，这种方法使用统计学，模式识别和机器学习方法，试图找到两类物体或事件的特征的一个线性组合，以能够特征化或区分它们。所得的组合可用来作为一个线性分类器，或者，更常见的是，为后续的分类做降维处理。LDA与方差分析（ANOVA）和回归分析紧密相关，这两种分析方法也试图通过一些特征或测量值的线性组合来表示一个因变量。然而，方差分析使用类别自变量和连续数因变量，而判别分析连续自变量和类别因变量（即类标签）。逻辑回归和概率回归比方差分析更类似于LDA，因为他们也是用连续自变量来解释类别因变量的。LDA的基本假设是自变量是正态分布的，当这一假设无法满足时，在实际应用中更倾向于用上述的其他方法。LDA也与主成分分析（PCA）和因子分析紧密相关，它们都在寻找最佳解释数据的变量线性组合。 LDA明确的尝试为数据类之间不同建立模型。另一方面，PCA不考虑类的任何不同，因子分析是根据不同点而不是相同点来建立特征组合。判别的分析不同因子分析还在于，它不是一个相互依存技术：即必须区分出自变量和因变量（也称为准则变量）的不同。在对自变量每一次观察测量值都是连续量的时候，LDA能有效的起作用。当处理类别自变量时，与LDA相对应的技术称为判别反应分析。考虑在已知类y中每一个对象或事件的一组观察量 x → {displaystyle {vec {x}}} （也称为特征、属性、变量或测量）。这一组样品是被称为训练集合。分类的问题，就是在仅给出一个观察量 x → {displaystyle {vec {x}}} 为y类找到一个良好的预测器，把任意具有相同分布的样品（不必须来自训练集合）都判断正确。:338LDA的方法是，通过假设条件概率密度函数 p ( x → | y = 0 ) {displaystyle p({vec {x}}|y=0)} 和 p ( x → | y = 1 ) {displaystyle p({vec {x}}|y=1)} 都是正态分布，分别具有均值和协方差 ( μ → 0 , Σ 0 ) {displaystyle left({vec {mu }}_{0},Sigma _{0}right)} 和 ( μ → 1 , Σ 1 ) {displaystyle left({vec {mu }}_{1},Sigma _{1}right)} 。根据这一假设，贝叶斯最佳解决方案是如果预测点按以下公式计算可能性比率的对数低于某一阈值T，它就看作属于第二类：如果没有任何进一步的假设，所得到的分类器称为QDA（二次判别分析）。相反，LDA做出额外简化的方差齐性假设（即，不同类之间协方差是相同的，所以 Σ 0 = Σ 1 = Σ {displaystyle Sigma _{0}=Sigma _{1}=Sigma } ），并且协方差是满秩的。在这种情况下，可以消掉一些项：如此，上面的判断准则就变成判断一个点积的阈值对于某些阈值常数c，当这意味着，一个输入 x → {displaystyle {vec {x}}} 属于类y的标准就纯粹成为一个已知观察值的线性组合的函数。从几何学的角度来看这个结论通常会有些帮助：判断一个输入 x → {displaystyle {vec {x}}} 是否为类y标准就是一个将多维空间上的点 x → {displaystyle {vec {x}}} 投影到矢量 w → {displaystyle {vec {w}}} （我们仅仅考虑其方向）的函数。换句话说，如果相对应的 x → {displaystyle {vec {x}}} 位于一个垂直于 w → {displaystyle {vec {w}}} 的超平面的某一侧，那么观察值就属于y类。平面的位置由阈值c来决定。正则判别分析法（CDA）寻找最优区分类别的坐标轴（k-1个正则坐标，k为类别的数量）。这些线性函数是不相关的，实际上，它们通过n维数据云定义了一个最优化的k-1个空间，能够最优的区分k个类（通过其在空间的投影）。详细请参见下面的“多类LDA”。费舍尔的线性判别和LDA的叫法往往是可以互换使用，尽管费舍尔最早的文章实际上描述了一个稍微不同的判别，他没有作出一些类似LDA所作的假设，比如正态分布的各类或者相等的类协方差。假设观察的两个类分别有均值 μ → 0 , μ → 1 {displaystyle {vec {mu }}_{0},{vec {mu }}_{1}} 和协方差 Σ 0 , Σ 1 {displaystyle Sigma _{0},Sigma _{1}} 。那么特征的线性组合 w → ⋅ x → {displaystyle {vec {w}}cdot {vec {x}}} 将具有均值 w → ⋅ μ → i {displaystyle {vec {w}}cdot {vec {mu }}_{i}} 和协方差 w → T Σ i w → {displaystyle {vec {w}}^{T}Sigma _{i}{vec {w}}} 其中 i = 0 , 1 {displaystyle i=0,1} 。费舍尔把区分这两类分布的规则为类间方差与类内方差的比率：从某种意义上说，这一方法是测量类标签的信噪比。它可以显示，当满足如下条件时，会产生最大的区分当LDA的假设满足时，上述方程式就是LDA。一定要注意的矢量 w → {displaystyle {vec {w}}} 是判别超平面的法线。以二维空间为例，能区分两类的最优线就是与 w → {displaystyle {vec {w}}} 。一般来说，要判别数据点投影到 w → {displaystyle {vec {w}}} ；然后从一维分布中选取区分数据的最佳阈值。选取阈值没有通用的规则。然而，如果两类的投影点显示出近似的分布，那么选取两个均值的投影 w → ⋅ μ → 0 {displaystyle {vec {w}}cdot {vec {mu }}_{0}} 和 w → ⋅ μ → 1 {displaystyle {vec {w}}cdot {vec {mu }}_{1}} 之间的超平面是比较合适的。在这种情况下， w → ⋅ x → > c {displaystyle {vec {w}}cdot {vec {x}}>c} 条件下的阈值参数c可以明确表达为：大津算法与费舍尔的线性判别有些相关，它的建立是通过最优选取黑白间的阈值，来二元化灰度图像中像素的直方图，既能使黑白像素两类间的方差最大化，又能使两类内各自的方差最小化。当出现超过两类的情况时，可以使用由费舍尔判别派生出的分析方法，它延伸为寻找一个保留了所有类的变化性的子空间。这是由 C.R.Rao 总结出来的。假设，C个类中每一个类都有均值 μ i {displaystyle mu _{i}} 和相同的协方差 Σ {displaystyle Sigma } 。那么，类间的变化可以通过类均值的协方差来定义这里 μ {displaystyle mu } 是各类均值的均值。在 w → {displaystyle {vec {w}}} 的方向区分类有下式给出这意味着如果 w → {displaystyle {vec {w}}} 是 Σ − 1 Σ b {displaystyle Sigma ^{-1}Sigma _{b}} 的特征向量，等同于用对应的特征值进行分类。如果 Σ − 1 Σ b {displaystyle Sigma ^{-1}Sigma _{b}} 是可对角化矩阵，特征之间的变化性就会被保留在C-1个最大特征值对应的特征向量构成子空间内（因为 Σ b {displaystyle Sigma _{b}} 最大可能的秩是C − 1）。与PCA相同，这些特征向量的主要用途是缩减特征数。较小的特征值对应的特征向量对训练数据的选择非常敏感，所以常常需要使用下段中描述的调整方法。如果只是为了分类，而不需要降维，还有一些替代技术可用。例如，多个类本身就是分离的，可用费舍尔判别或者LDA对每个区进行分类。一个常见的例子是“一个对其余”，指的是从一个类里出来的点，放入一组里，其他的归入另一组，这就可以用LDA。这将导致C类分类器，它的结果是组合在一起的。另一个常见的方法就是配对分类，给每一对类别创建一个分类器（总共有C(C − 1)/2个分类器)，再将每个分类器的结果综合得到最终结果。要实现典型的LDA技术前提是所有的样本都必须提前准备完毕。但有些情况下，没有现成的完整数据集或者输入观察数据是流的形式。这样，就要求LDA的特征提取有能力随着观察新样本的增加而更新LDA的特征，而不是在整个数据集上运行算法。例如，在移动机器人或实时脸部识别等实时应用中，提取的LDA特征能随着新观察值实时更新是非常重要的。这种能够通过简单观察新样本来更新LDA特征的技术就叫做增量LDA算法，在过去二十年里，它已经被广泛的研究过。 Catterjee和Roychowdhury提出了一种增量自组织LDA算法来更新LDA特征。另外，Demir和Ozmehmet提出利用误差改正和赫布学习规则的线上本地学习算法来更新LDA特征。最后，Aliyari等人提供了快速增量LDA算法。在实际中，类的均值和协方差都是未知的。然而，它们可以从训练集合中估算出来。最大似然估计和最大后验概率估计都可以用来替代上述方程里面的相应值。虽然协方差的估值在某种意义上是最优的，即使对类的正态分布假设是正确的，也并不能表明用这些估值替换得到的判别是最优的。另一个应用LDA和费舍尔判别的复杂情况是，每个样品测量值的数量（即每个数据向量的维度）超过类中的样品数量。在这种情况下，协方差估值不是满秩，因此不能取逆。有几种方法可以应对这种情况。一种是在上述公式中使用广义逆阵替代通常的逆矩阵。不过，先把问题投影到 Σ b {displaystyle Sigma _{b}} 构成的子空间上可以得到更好的数字稳定性。另一个处理小样本的策略是，用协方差矩阵的收缩估算，可以表达为以下数学式这里 I {displaystyle I} 的单位矩阵， λ {displaystyle lambda } 是的收缩度或归一参数。这产生了归一判别分析或收缩判别分析的框架。此外，在许多实际情形中线性判别是不合适的。 LDA和费舍尔判别可以通过核函数扩展到非线性分类。原始的观察值有效的映射到一个高维的非线性空间里。在这个非线性空间里的线性分类，就相当于在原始空间里面的非线性分类。最常用的例子就是核函数费舍尔判别。LDA可以推广到多类判别分析，其中c变为一个具有N个可能状态，而不是两个状态的类别变量。类似地，如果各类的条件概率密度 p ( x → ∣ c = i ) {displaystyle p({vec {x}}mid c=i)} 都是正态分布有共同的协方差，那么 P ( c ∣ x → ) {displaystyle P(cmid {vec {x}})} 的充分统计量就是协方差逆矩阵在N个均值构成的子平面上仿射的N个投影值。这些投影值可以通过解广义特征值问题来找到，分子是以均值为样本构成的协方差矩阵，分母是共有协方差矩阵。详情参见上述“多类LDA”。除了下面给出的实例，LDA应用于市场定位和产品管理。在基于财务比率和其他金融变量的破产预测中，LDA是第一个用来系统解释公司进入破产或存活的统计学工具。尽管受到财务比率不遵守LDA正态分布假设的限制，Edward Altman的1968年模型仍然是实际应用的领先者。在计算机化的脸部识别中，每一张脸由大量像素值表达。 LDA在这里的主要作用是把特征的数量降到可管理的数量后再进行分类。每一个新的维度都是模板里像素值的线性组合。使用费舍尔线性判别得到的线性组合称为费舍尔脸，而通过主成分分析（PCA）得到称为特征脸。在市场营销，判别分析曾经常用于通过市场调查或其他数据收集手段，找出那些能区分不同客户或产品类型的多个因素。如今用的更多的是逻辑回归或其他方法。在市场营销中使用判别分析的具体步骤如下描述：判别分析在医学的主要应用是评估患者的严重程度和对疾病结果的预后判断。比如，在回顾分析中，根据患者的病情分为几组：轻微，中度和严重。通过对临床和实验室分析结果的研究，揭示被研究组中哪些变量是统计上不同的。使用这些变量建立判别函数，帮助将未来的患者客观的划分到轻微，中度和严重的类别里。在生物学中，类似的原则被用以划分和定义不同的生物对象。例如，用傅立叶变换红外光谱定义沙门氏菌的噬菌体类别，检测大肠杆菌的动物来源以研究它的毒力因子等。这种方法可用于区分蚀变带。例如，当很多带的不同数据都现成时，判别分析可以从数据中找到模式并有效的对它分类。