最大期望算法

✍ dations ◷ 2025-12-02 19:47:12 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 柬埔寨法院特别法庭柬埔寨法院特别法庭(高棉语:អង្គជំនុំជម្រះវិសាមញ្ញក្នុងតុលាការកម្ពុជា,angk chomnoumchomreah visaeamonhnh knong tolakar kampo
  • Tc4d5 5s22, 8, 18, 13, 2蒸气压((推断))第一:702 kJ·mol−1 第二:1470 kJ·mol−1 第三:2850 kJ·mol主条目:锝的同位素锝(拼音:dé,注音:ㄊㄚˇ,粤拼:dak1,台湾称
  • No5f14 7s22, 8, 18, 32, 32, 8, 2第一:641.6 kJ·mol−1 第二:1254.3 kJ·mol−1 第三:2605.1 kJ·mol主条目:锘的同位素锘(Nobelium)是一种人工合成元素,符号为No,原子序为102。
  • 世界交易所联盟世界交易所联合会(英文:WFE),原名国际交易所联盟(FIBV)是一家证券交易所的国际组织。世界交易所联盟总部位于英国伦敦,目前由58个国家、地区的证券交易所构成。
  • 保罗·塞尔瓦保罗·约瑟夫·塞尔瓦(英语:Paul Joseph Selva),美国空军上将,现为第10任美国参谋长联席会议副主席,之前曾任美国运输司令部司令,2015年7月31日就任现职。
  • 青年共产党人 (意大利)青年共产党人(意大利语:Giovani Comuniste或Giovani Comunistei)是意大利的一个左翼青年组织,它是重建共产党的青年翼。该组织成立于1995年2月。该组织的全国协调员是Anna Belli
  • 贝叶斯污染贝叶斯污染(英语:Bayesian poisoning)是垃圾邮件制造者对抗贝叶斯垃圾邮件过滤器的一种技术。贝叶斯过滤器通过贝叶斯概率,确定一封新收到的邮件是否属于垃圾邮件。垃圾邮件制造
  • 卡拉·琳恩·乔伊斯卡拉·琳恩·乔伊斯(Kara Lynn Joyce,1985年10月25日-),生于美国纽约,美国女子游泳运动员。曾参加2004年、2008年和2012年三届奥运,其中2004年雅典奥运和2008年北京奥运分别收获两
  • 第纳尔第纳尔(Dinar; دينار)是一种货币的单位。有数十个国家采用此种名称的货币,但是各国的第纳尔的价值和面额并不尽相同。第纳尔这个名称是来自于罗马帝国一种被称为第纳里乌斯
  • 朱慈炅朱慈炅(1625年10月31日-1626年5月30日),明熹宗朱由校第三子、母容妃任氏。天启五年十月丙子(1625年10月31日)出生。天启六年五月初六,朱慈炅因为王恭厂大爆炸,受惊而亡,尚不足一岁。