最大期望算法

✍ dations ◷ 2025-07-01 05:59:06 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 化朗(furlong,或“浪”)是使用于英国、前英国殖民地和英联邦国家的长度单位。美国等国家采用。一单位长度等于660英尺或220码或10链,约等于公制的201.168米。8浪等于1哩,5浪等于1
  • CD18n/an/an/an/an/an/an/an/an/an/a整联蛋白β-2(英语:Integrin beta-2,CD18)是一个由人类基因 ITGB2 编码的蛋白质,是整联蛋白的一种β亚基。能与下列四种整联蛋白α亚基搭配形成四
  • δ-3-蒈烯3-蒈烯(Carene, 或delta-3-carene)是一种天然存在的单萜烯,是松节油的组分之一。视来源不同,松节油中含量可达42%。3-蒈烯有强烈香气,不溶于水,与油脂混溶。3-蒈烯的天然来源包括
  • 伏牛山伏牛山是位于中国河南省西部的一座山脉,为秦岭的东延余脉,山势自西北向东南渐次铺展。西北与熊耳山相连,东南到南阳盆地东北边缘,长400余公里,宽约40至70公里,山脉主脊高度约1500
  • 退伍军人权利法1944年军人复员法案(英语:Servicemen's Readjustment Act of 1944),经常被称为美国军人权利法案(G.I. Bill of Rights,或G.I. Bill),美国法律,为了安置第二次世界大战后的退伍军人(当
  • 波士顿工作室波士顿工作室(英语:Tencent Boston),是腾讯游戏旗下的游戏工作室。2008年第3季度在美国波士顿康科特成立。
  • 笔尾獴属笔尾獴(学名 Cynictis penicillata) 也叫黄獴,是一种小型的獴科动物。笔尾獴平均体重0.5公斤,体长500毫米,生活在安哥拉、博茨瓦纳、南非、纳米比亚和津巴布韦的半沙漠灌木地区和
  • 渥太华国家森林渥太华国家森林(英语:Ottawa National Forest)是美国密歇根州上半岛的一座国家森林,占地面积993,010英亩(401,860公顷)。森林多位于戈吉比克县和昂托纳贡县内,在艾昂县、霍顿县、巴
  • 人类线粒体DNA单倍体群人类线粒体DNA单倍体群(Human mitochondrial DNA Haplogroup)是遗传学上依据线粒体DNA差异而定义出来的单倍体群。可使研究者追溯母系遗传的人类起源,线粒体研究显示人类是起源
  • 瓦莫什·米克罗什瓦莫什·米克洛什(匈牙利语:Vámos Miklós,1950年2月29日-)原名蒂博尔·瓦莫什。匈牙利作家、小说家、编剧、翻译家、脱口秀主持人。出生于布达佩斯。目前出版了33部著作。他的