最大期望算法

✍ dations ◷ 2025-11-30 04:20:26 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 专门立法许多国家政府制定语言政策来鼓励或压抑民众对某一特定语言的使用。虽然国家经常透过语言政策的制定来推行官方语言,但亦有许多国家借助语言政策来保护地区性语言或濒危语言。
  • 生态演替演替(英语:succession)是指在群落发展变化过程中,由低级到高级,由简单到复杂,一个阶段接着一个阶段,一个群落代替另一个群落的自然演变现象。裸地的存在是群落形成的最初条件和场所
  • 单子叶植物单子叶植物(Monocotyledons,简称monocots),旧名单子叶植物纲(Monocotyledoneae)或百合纲(Liliopsida),单子叶植物有约59,300个物种。当中最大的科是兰科,有超过20,000个物种。单子叶植
  • 绝缘子绝缘子(英语:insulator)是真核生物基因组的调控元件之一,亦为一种边界元件。功能为阻止临近调控元件,对它所界定基因的启动子起增强或者阻遏的作用。它对增强子的抑制作用具有极
  • 扬·菲舍尔扬·菲舍尔(捷克语:Jan Fischer,1951年1月2日-),捷克政治人物。曾于2009年5月至2010年6月间出任捷克总理。扬·菲舍尔1974年毕业于布拉格经济大学。1980年,菲舍尔加入捷克斯洛伐克
  • 乔治城镇乔治城 (英语:Georgetown)是华盛顿哥伦比亚特区的一个社区。该社区有一所自己的大学乔治城大学,包括超过100个餐馆酒吧,区中的M-大街是华盛顿最有名的大街之一。
  • 2008青宁心曲《2008青宁心曲》是台湾客家歌手徐筱宁的第2张录音室专辑,由銮克勇制作,吉声影视音制作发行。此专辑共收录10首歌曲,皆使用客语演唱。吉声影视音有意打造徐筱宁为现代曲风的客
  • 阮文诚阮文诚(越南语:Nguyễn Văn Thành/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H
  • IA 63教练机IA 63是阿根廷委托德国都尼尔公司研发的喷射教练机,其外形类似使用单发动机的阿尔法教练机。IA 63的机身为全金属半硬壳式结构,机身后方左右各有一块油压推动的减速板,机翼为梯
  • 比例尺 (地图)比例尺(英语:Scale)是指地图上距离和实际距离之间的比例。例如当实际距离为1000米,而在地图上的距离为10厘米时,则称这一地区的比例尺是1:10,000。一般将比例尺为1:1至1:600,000