最大期望算法

✍ dations ◷ 2025-08-17 20:45:23 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 蛋白质纯化蛋白质纯化是指将一种或几种蛋白质从复杂的混合物(通常是细胞、组织或整个器官)中分离的一系列过程。对于表征蛋白质功能、结构和相互作用来说,蛋白质纯化是十分重要的一步。蛋
  • 法属南部和南极领地法属南部和南极领地(法语:Terres australes et antarctiques françaises,缩写为TAAF)简称法属南部领地,是法国的一个海外领地。它包含以下地区:法属南部和南极领地无常住居民,人口
  • 同性恋病男同性恋免疫缺乏症(英语:Gay-related immune deficiency)是1982年提出,在艾滋病拥有合理的作为综合征的医学解释之前,用于描述“一系列的意料之外的病例”也是用来代指艾滋病的
  • 台山台山可以指:
  • 回教国家穆斯林世界有几种含义。在宗教意义上说,它是指那些坚持伊斯兰教法的国家。在文化意义上说,它指的是伊斯兰文明,不包括生活在该文明的非穆斯林(齐米)。在现代的地缘政治意义上,该术
  • 最高人民会议常任委员会执政党(607):参政党(72):无党派(8):朝鲜民主主义人民共和国主题最高人民会议(朝鲜语:최고인민회의/最高人民會議),是朝鲜民主主义人民共和国宪法规定的最高权力机关。最高人民会议代表经朝
  • 罗宾·威廉姆斯罗宾·麦洛林·威廉姆斯(英语:Robin McLaurin Williams,1951年7月21日-2014年8月11日)是美国著名演员与配音员,曾赢得奥斯卡金像奖、美国演员工会奖、金球奖、艾美奖、格莱美奖等
  • 露腹短上衣露腹短上衣(Crop top)也称为露脐上衣、短版上衣,是一种较短的上衣(英语:Top (clothing)),其下摆较高,会露出腰、肚脐或部分中腹部(英语:midriff)。露腹短上衣一般用在女装,比基尼泳装虽
  • 小蜗不见了《小蜗不见了》(英语:,又称)是美国动画电视剧《海绵宝宝》第4季(英语:SpongeBob SquarePants (season 4))的第3集,同时也是全剧的第63集,于2005年11月11日通过尼可国际儿童频道首播。
  • 孟知祥后蜀高祖孟知祥(874年6月9日-934年9月7日),字保胤,邢州龙冈(今河北邢台市西南)人。后唐太祖李克用婿。他是五代十国时期后蜀开国皇帝(934年在位),在位不到1年,享寿61岁。后唐建立后,以孟