最大期望算法

✍ dations ◷ 2025-12-11 12:52:51 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • H6N1H6N1(英语:Influenza A virus subtype H6N1,记作A(H6N1)或H6N1)是一种甲型流感病毒,是禽流感病毒或禽流感病毒的一个亚型。H6N1最初于2013年6月21日在台湾发现,首例患者是一名住在
  • 自然疗法自然医学(英语:Naturopathy,或Naturopathic Medicine),又称自然疗法,起源于19世纪欧洲的非主流医疗方式,通常被归类在替代医学中。自然医学把人体视为一个整体,相信人体存在生命力,有
  • 何启圣何启圣(1964年2月4日-)(英文:Chi-Sheng Ho)。台湾电视新闻节目主持人。前 TVBS-NEWS《整点新闻》主播、TVBS政论节目《13招待所》主持人。亦是一名资深的军事记者。2009年担任1
  • 卢旺达大屠杀卢旺达大屠杀发生在位于东非的卢旺达,是胡图族人对图西族人进行的卢旺达大屠杀,从1994年4月6日至7月中旬的100天里,卢旺达700多万人口中约有50万—100万人被杀。屠杀的背景是胡
  • 胖子查理查理三世(德语:Karl III der Dicke)或称胖子查理(法语:Charles le Gros;839年6月13日-888年1月13日)是加洛林王朝的东法兰克国王(876年起),西法兰克国王(884年起)和神圣罗马皇帝(称查理三
  • 法绍达事件法绍达事件(Fashoda Incident),或译法硕达事件,是发生于1898年在英国和法国之间,东非的帝国主义殖民地争夺的最高潮。两国陷入了国际争端,但最终以英国的外交胜利告终。这使得法国
  • 集成电路设计集成电路设计(英语:Integrated circuit design, IC design),根据当前集成电路的集成规模,亦可称之为超大规模集成电路设计(VLSI design),是指以集成电路、超大规模集成电路为目标的
  • 耶路撒冷国王此乃1099年至1291年,耶路撒冷王国的君主和至今的耶路撒冷国王头衔继承人列表。
  • 东岛东岛是西沙群岛宣德群岛中的第二大的岛屿。东岛是西沙群岛东部的宣德群岛东岛环礁中的岛屿,位于永兴岛东南约50公里。东岛是上升礁和珊瑚贝壳沙体复合组成的岛屿。该岛呈长方
  • 喜多村英梨喜多村英梨(1987年8月16日-)是日本的女性声优、歌手。唱片公司为自主音乐制作dystopia record和ロッカンミュージック(日语:ロッカンミュージック)。身高157公分,血型A型。小时候是