最大期望算法

✍ dations ◷ 2025-12-05 21:34:40 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 四川盆地四川盆地(也被称为川渝盆地),位于亚洲大陆中南部,中国西南部四川省和重庆市境内,西邻青藏高原,是中国四大盆地之一;面积约16万平方公里,农业发达,有“天府之国”之称。四川盆地由连结
  • 语义记忆语意记忆(Semantic memory),又称语义记忆、字义记忆,是一种记忆的型态。它是一种对于一般知识的事实与概念的了解,透过语言、文字、数字、算法等抽象性的了解来形成记忆。语意记
  • 游击战游击战是非正规作战,游击战一词来自18世纪的西班牙语guerra(战争)的缩小词guerrilla,意为“小战”,这一词在后来的半岛战争(1808年-1814年)也出现过。游击战以多发性主动袭击为主要
  • 中国大陆生育率#1980年至今中国大陆是世界上生育率较低的地区之一。根据2017年的统计数据,在224个国家或地区中排名第182位。总和生育率反映妇女一生中生育的子女总数。2017年人口调查显示,中国大陆总和
  • 过轻体重不足指一个人的体重低于健康水平,通常以身高体重指数(BMI)作指标,BMI低于18.5属于体重不足。医学上体重不足的定义,未必适用于其他方面(如作为吸引力的指标)。体重不足最常见的
  • REN21REN21, 21世纪可再生能源政策网公司作为全球性的政策网络,为国际领导提供可再生能源平台。致力于在发展中及工业化国家经济体系中为可再生能源的商业化快速发展提供政策支持
  • 阿盖尔-比特阿盖尔-比特(英语:Argyll and Bute)是英国苏格兰地区的32个一级行政区之一。地处苏格兰西部,主要地域是苏格兰高地西南部以及苏格兰西海岸外的岛屿,面积上是苏格兰第二大的行政区
  • 先进沸水堆先进沸水堆(英语:Advanced Boiling Water Reactor,简写ABWR;也译改良型沸水式反应堆),是一款符合第三代反应器规范的沸水反应堆。目前由通用电气(GEH)和东芝合作生产。如同以往的沸
  • 清华大学建筑学院清华大学建筑学院,为清华大学直属学院,1988年在清华大学建筑系基础上建立。1945年,抗日战争胜利前夕,为了迎接战后复兴的需要,梁思成致书当时清华大学校长梅贻琦,畅叙建筑教育发展
  • 他源文字他源文字是指部分或全部地借用或参考其他民族的文字的字形,再根据本民族语言的特点做适宜的改动而形成的文字。其与自源文字相区别。由于所记录的语言不同,引进的他源文字一般