最大期望算法

✍ dations ◷ 2025-12-07 16:38:43 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 古英语古英语(古英语:Ænglisc,英语:Old English)或盎格鲁-撒克逊语(英语:Anglo-Saxon)是指从449年到1066年间在对应于今天英格兰和苏格兰东南部的人说的英语。古英语属于西日耳曼语,和古弗
  • 比目鱼见内文比目鱼或扁鱼,是鲽形目鱼类的统称,又名.mw-parser-output ruby>rt,.mw-parser-output ruby>rtc{font-feature-settings:"ruby"1}.mw-parser-output ruby.large{font-siz
  • 胡蜂科蜾蠃亚科 Eumeninae Euparagiinae Masarinae Polistinae Stenogastrinae Vespinae胡蜂科(Vespidae)是膜翅目胡蜂总科下的一个大科,其下有将近五千种生物,既有群居的蜂;也有独居的
  • 智利公投Plebiscito-Presidente de la Republica Augusto Pinochet Ugarte公投-共和国总统 奥古斯托·皮诺切特·乌加尔特1988年智利公投,是智利1988年10月5日举行的一次公投。决定
  • 美国海军部美国海军部(英语:United States Department of the Navy)依据美国国会法案创建于1798年4月30日,其担负的职能有:为美国海军以及美国海军陆战队提供行政管理、技术支持,并通过文官
  • Cardiola见内文是双壳纲隐齿亚纲已绝灭的一属咸水蛤蜊。本属物种于志留纪到中泥盆世期间生活于今日的非洲、欧洲和北美洲,并未有在亚洲分布。
  • 锡伯文锡伯文(锡伯语:ᠰᡞᠪᡝ ᡥᡝᠷᡤᡝᠨ,转写:)是锡伯语的文字,1947年前后由满文略加改造而成,是全音素文字。由上至下竖写,各列由左至右排列。下表列出锡伯文里和满文有区别的字母。
  • 维罗纳审判维罗纳审判(意大利语:processo di Verona)是1944年1月8日至10日期间,由纳粹德国傀儡政权意大利社会共和国在维罗纳主导的一场作秀审判,其目的是处罚在格兰迪决议中,对墨索里尼首相
  • 位置空间与动量空间位置空间与动量空间是物理学中一对联系紧密的矢量空间。位置空间(或称实空间、坐标空间)是空间中所有物体的位矢r的集合。这个空间通常是三维的。位矢定义了空间中的一个点。
  • 含生草含生草,(学名),又称耶利哥蔷薇(rose of Jericho)、复活草。是十字花科含生草属里唯一的一种植物。生长在内盖夫和撒哈拉沙漠中。含生草的高度不超过15厘米,开白颜色的小花。每年的