最大期望算法

✍ dations ◷ 2025-07-06 02:44:14 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 血管新生血管新生(英文:Angiogenesis)是一个生理上新的微血管发展成一个血流供应系统的过程。而Vasculogenesis通常指自发性的血管形成,另外Intussusception则是指较一般快速形成的血管
  • 河内文庙河内文庙(越南语:Văn Miếu Hà Nội/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI
  • 四大部洲四大部洲,又称四洲、四大洲、四天下,是佛教中认为的在须弥山周围咸海中的四大洲,分别为东胜神洲、西牛贺洲、南赡部洲和北俱卢洲,分别住着四大天王。另外还有八小部洲。《西游记
  • 藏书癖藏书癖,是囤积病(英文: Compulsive hoarding,或称囤积症、强迫性囤积症、病态性囤积症、弃置恐惧症)的一种,指收藏书籍的行为已达到影响其日常社交或身体健康的强迫症。在许多有关
  • 未知数在初等数学里,变量或变元、元是一个用来表示值的符号,该值可以是随意的,也可能是未指定或未定的。在代数运算时,将变量当作明确的数值代入运算中,可以于单次运算时解出多个问题。
  • 阿尔达希尔一世阿尔达希尔一世(Ardashir I,?—约240年),或名阿尔塔薛西斯(Artaxerxes)伊朗萨珊王朝的创建者,第一位“众王之王”(约226年—约240年在位)。阿尔达希尔一世生于伊朗南部法尔斯省的显赫
  • 低地国低地国家(荷兰语:de Nederlanden,法语:les Pays-Bas),又译低地诸国(英语:Low Countries),是对欧洲西北沿海地区的称呼,广义包括荷兰、比利时、卢森堡,以及法国北部与德国西部;狭义上则仅
  • 浙派古琴浙派古琴始见于北宋而盛于南宋,因始创人郭沔祖籍浙江而得名,是宋明之际最主要的琴派。郭沔传刘志方,刘志方传徐天民、毛敏仲、汪元亮,徐天民、毛敏仲编著《紫霞洞琴谱》,加上郭沔
  • 拉名下拉名下,是指明朝大宦官在小阉中挑选一些长相好、聪慧机警的以传承衣钵,结成隶属关系的行为。年长的大宦官要负责对小阉抚育照料、教导督责、提拔举荐。小阉长大后则要对负责自
  • 丰桑克特峰坐标:44°36′16″N 6°47′59″E / 44.60444°N 6.79972°E / 44.60444; 6.79972丰桑克特峰(法语:Pics de la Font Sancte),是法国的山峰,位于该国东南部,由上阿尔卑斯省负责管辖,