线性判别分析

✍ dations ◷ 2024-12-22 19:55:12 #分类算法,多变量统计,统计分类,市场学

线性判别分析 (LDA)是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。

LDA与方差分析(ANOVA)和回归分析紧密相关,这两种分析方法也试图通过一些特征或测量值的线性组合来表示一个因变量。 然而,方差分析使用类别自变量和连续数因变量,而判别分析连续自变量和类别因变量(即类标签)。 逻辑回归和概率回归比方差分析更类似于LDA,因为他们也是用连续自变量来解释类别因变量的。LDA的基本假设是自变量是正态分布的,当这一假设无法满足时,在实际应用中更倾向于用上述的其他方法。

LDA也与主成分分析(PCA)和因子分析紧密相关,它们都在寻找最佳解释数据的变量线性组合。 LDA明确的尝试为数据类之间不同建立模型。 另一方面,PCA不考虑类的任何不同,因子分析是根据不同点而不是相同点来建立特征组合。判别的分析不同因子分析还在于,它不是一个相互依存技术:即必须区分出自变量和因变量(也称为准则变量)的不同。

在对自变量每一次观察测量值都是连续量的时候,LDA能有效的起作用。当处理类别自变量时,与LDA相对应的技术称为判别反应分析。

考虑在已知类中每一个对象或事件的一组观察量  x {\displaystyle {\vec {x}}} 类找到一个良好的预测器,把任意具有相同分布的样品(不必须来自训练集合)都判断正确。:338

LDA的方法是,通过假设条件概率密度函数  p ( x | y = 0 ) {\displaystyle p({\vec {x}}|y=0)}  ,不同类之间协方差是相同的,所以 Σ 0 = Σ 1 = Σ {\displaystyle \Sigma _{0}=\Sigma _{1}=\Sigma } ,当

这意味着,一个输入 x {\displaystyle {\vec {x}}} 的标准就纯粹成为一个已知观察值的线性组合的函数。

从几何学的角度来看这个结论通常会有些帮助:判断一个输入 x {\displaystyle {\vec {x}}} 标准就是一个将多维空间上的点 x {\displaystyle {\vec {x}}} 类。平面的位置由阈值c来决定。

正则判别分析法(CDA)寻找最优区分类别的坐标轴(-1个正则坐标,为类别的数量)。 这些线性函数是不相关的,实际上,它们通过维数据云定义了一个最优化的个空间,能够最优的区分个类(通过其在空间的投影)。详细请参见下面的“多类LDA”。

和的叫法往往是可以互换使用,尽管费舍尔最早的文章实际上描述了一个稍微不同的判别,他没有作出一些类似LDA所作的假设,比如正态分布的各类或者相等的类协方差。

假设观察的两个类分别有均值 μ 0 , μ 1 {\displaystyle {\vec {\mu }}_{0},{\vec {\mu }}_{1}} 个最大特征值对应的特征向量构成子空间内(因为 Σ b {\displaystyle \Sigma _{b}}  − 1)。与PCA相同,这些特征向量的主要用途是缩减特征数。较小的特征值对应的特征向量对训练数据的选择非常敏感,所以常常需要使用下段中描述的调整方法。

如果只是为了分类,而不需要降维,还有一些替代技术可用。例如,多个类本身就是分离的,可用费舍尔判别或者LDA对每个区进行分类。一个常见的例子是“一个对其余”,指的是从一个类里出来的点,放入一组里,其他的归入另一组,这就可以用LDA。这将导致C类分类器,它的结果是组合在一起的。另一个常见的方法就是配对分类,给每一对类别创建一个分类器(总共有( − 1)/2个分类器),再将每个分类器的结果综合得到最终结果。

要实现典型的LDA技术前提是所有的样本都必须提前准备完毕。但有些情况下,没有现成的完整数据集或者输入观察数据是流的形式。这样,就要求LDA的特征提取有能力随着观察新样本的增加而更新LDA的特征,而不是在整个数据集上运行算法。例如,在移动机器人或实时脸部识别等实时应用中,提取的LDA特征能随着新观察值实时更新是非常重要的。这种能够通过简单观察新样本来更新LDA特征的技术就叫做增量LDA算法,在过去二十年里,它已经被广泛的研究过。 Catterjee和Roychowdhury提出了一种增量自组织LDA算法来更新LDA特征。 另外,Demir和Ozmehmet提出利用误差改正和赫布学习规则的线上本地学习算法来更新LDA特征。 最后,Aliyari等人提供了快速增量LDA算法。

在实际中,类的均值和协方差都是未知的。然而,它们可以从训练集合中估算出来。最大似然估计和最大后验概率估计都可以用来替代上述方程里面的相应值。虽然协方差的估值在某种意义上是最优的,即使对类的正态分布假设是正确的,也并不能表明用这些估值替换得到的判别是最优的。

另一个应用LDA和费舍尔判别的复杂情况是,每个样品测量值的数量(即每个数据向量的维度)超过类中的样品数量。 在这种情况下,协方差估值不是满秩,因此不能取逆。有几种方法可以应对这种情况。一种是在上述公式中使用广义逆阵替代通常的逆矩阵。不过,先把问题投影到 Σ b {\displaystyle \Sigma _{b}} 或这产生了归一判别分析 或收缩判别分析的框架。

此外,在许多实际情形中线性判别是不合适的。 LDA和费舍尔判别可以通过核函数扩展到非线性分类。原始的观察值有效的映射到一个高维的非线性空间里。在这个非线性空间里的线性分类,就相当于在原始空间里面的非线性分类。最常用的例子就是核函数费舍尔判别。

LDA可以推广到多类判别分析,其中变为一个具有个可能状态,而不是两个状态的类别变量。类似地,如果各类的条件概率密度 p ( x c = i ) {\displaystyle p({\vec {x}}\mid c=i)} 个均值构成的子平面上仿射的个投影值。这些投影值可以通过解广义特征值问题来找到,分子是以均值为样本构成的协方差矩阵,分母是共有协方差矩阵。详情参见上述“多类LDA”。

除了下面给出的实例,LDA应用于市场定位和产品管理。

在基于财务比率和其他金融变量的破产预测中,LDA是第一个用来系统解释公司进入破产或存活的统计学工具。尽管受到财务比率不遵守LDA正态分布假设的限制,Edward Altman的1968年模型仍然是实际应用的领先者。

在计算机化的脸部识别中,每一张脸由大量像素值表达。 LDA在这里的主要作用是把特征的数量降到可管理的数量后再进行分类。每一个新的维度都是模板里像素值的线性组合。使用费舍尔线性判别得到的线性组合称为,而通过主成分分析(PCA)得到称为。

在市场营销,判别分析曾经常用于通过市场调查或其他数据收集手段,找出那些能区分不同客户或产品类型的多个因素。如今用的更多的是逻辑回归或其他方法。在市场营销中使用判别分析的具体步骤如下描述:

判别分析在医学的主要应用是评估患者的严重程度和对疾病结果的预后判断。比如,在回顾分析中,根据患者的病情分为几组:轻微,中度和严重。通过对临床和实验室分析结果的研究,揭示被研究组中哪些变量是统计上不同的。使用这些变量建立判别函数,帮助将未来的患者客观的划分到轻微,中度和严重的类别里。

在生物学中,类似的原则被用以划分和定义不同的生物对象。例如,用傅立叶变换红外光谱定义沙门氏菌的噬菌体类别, 检测大肠杆菌的动物来源以研究它的毒力因子 等。

这种方法可用于区分蚀变带。例如,当很多带的不同数据都现成时,判别分析可以从数据中找到模式并有效的对它分类。

相关

  • 级别在病理学上,学界会订出不同分级(grading)标准评估肿瘤的状态。有些肿瘤分级仅用于恶性(英语:malignant)肿瘤(癌症),有些则涵盖良性肿瘤。一般来说,肿瘤的分级会参考细胞的分化情形。肿
  • 孚日山脉Gneiss, granite and vulcanite stratigraphic units: about 419–252 mya孚日山脉(Massif des Vosges)是法国东北部的山脉。跨越阿尔萨斯、洛林两地。由北北东向南南西,和法国
  • 克莱门斯·梅特涅克莱门斯·文策尔·冯·梅特涅(Klemens Wenzel von Metternich,1773年5月15日-1859年6月11日)德意志出生的奥地利政治家,亦是所在时代最重要的外交家之一。梅特涅生于科布伦茨的
  • 1837年起义1837年叛乱(英语:Rebellions of 1837–1838,法语:Rébellions de 1837–1838)是1837年和1838年发生在加拿大下部和上部的两起武装起义,这两起叛乱都是由于政治改革的挫折所导致,一
  • 椰菜花花椰菜(学名:Brassica oleracea L. var. botrytis L.、英语:Cauliflower),又称菜花、椰菜花,十字花科芸薹属的物种,是一种常见的蔬菜,是甘蓝的变种。花椰菜的头部为白色或绿色花序,与
  • 陈廷焯陈廷焯(1853年-1892年),字亦峰,又字伯与,丹徒(今江苏省镇江县)人,清代词人、诗词理论家。咸丰三年(1853年)出生,性情磊落,“与人交,表里洞然。无骩骳之习”,清光绪十七年(1891年1月)撰成《白
  • 盐城盐城市,简称盐,又称盐阜,古称盐渎,是中华人民共和国江苏省下辖的地级市,位于江苏省中东部沿海。海岸线长582千米,占全省海岸线总长度的61%。市境南邻南通市、泰州市,西界扬州市、淮
  • 豪猪亚目豪猪亚目(学名:Hystricomorpha)在历史上曾有过许多含义。广义上是指所有具有豪猪型颧弓-咬肌结构(Zygomasseteric system)的啮齿目动物(跳鼠类除外),包括豪猪下目(Hystricognathi)、栉
  • 台湾国家森林游乐区中华民国现有国有林森林游乐区(通称“国家森林游乐区”)计22处,包括行政院农业委员会依《森林法》及《森林游乐区设置管理办法》划设之森林游乐区共18处,由农委会林务局设置专责
  • 福克兰群岛福克兰群岛(英语:Falkland Islands,英国所使用的称呼)或称马尔维纳斯群岛(西班牙语:Islas Malvinas,阿根廷所使用之称呼),由东福克兰岛和西福克兰岛两个主岛以及周围778座小岛所组成