最大期望算法

✍ dations ◷ 2024-12-23 10:38:07 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • G蛋白G蛋白(英语:G Protein)是指鸟苷酸结合蛋白(guanine nucleotide-binding proteins)。它含有一个鸟苷酸结合结构域,由α、β、γ三个亚基组成。激活状态下的G蛋白可以激活腺苷酸环化
  • 北京官话北京官话可指:北京官话指官话方言的一支,共分四片:此外,若从创制源头来讲,现代标准汉语(华语,包括普通话、国语、新马华语)均属北京官话方言。根据张世方《北京官话语音研究》,冀鲁官
  • 中闪米特语支闪米特语族,译作閃語族、塞姆语族或閃米特語族 ,旧称叙利亚-阿拉伯语族,是亚非语系之下的语族之一,起源于中东地区,其下属语言约有3.3亿人作为母语,分布于西亚、北非和非洲之角,也
  • 大嶝岛大嶝岛是位于中华人民共和国福建省厦门市翔安区东南部的海岛,面积约13平方公里。行政上现属厦门市翔安区大嶝街道。大嶝岛与小嶝岛、角屿组成嶝岛群岛。该群岛原为金门县大嶝
  • 落基山国家公园洛矶山国家公园是美国的一个国家公园,位于科罗拉多州的中北部。落矶山国家公园特色为壮丽的山脉风景、多样的生物与多样的气候及天然环境(从森林到高山冻土层)。
  • 叠氮酸叠氮酸,分子式HN3,在常温常压下为一种无色、具挥发性、有刺激臭、高爆炸性的液体。是拟卤化氢的一种。叠氮酸主要用于保存贮存溶液(stock solution),以及作为一种试剂。叠氮酸在1
  • 圣劳伦斯湾圣劳伦斯湾(英语:Gulf of Saint Lawrence)是加拿大东南部的大西洋海湾,圣劳伦斯河在这里流入北大西洋,位于拉布拉多半岛、纽芬兰、新不伦瑞克与布雷顿角岛(Cape Breton Island)之间
  • 骨牌骨牌,是牌上有两个骰子点数的牌具,由骰子演变而来的,中国传统的骨牌又称为天九牌。得名是来自于它的制作材料,由于骨牌大多是用牛骨制成的故称骨牌,也有用象牙制成的,故亦称牙牌,传
  • 自旋极化自旋极化(英语:Spin polarization)可以用来度量基本粒子自旋的角动量和一个给定方向吻合的程度。这个属性可能属于自旋,从而也属于金属传导带(例如铁)的磁矩,它们促进了自旋极化电
  • 米隆·康斯坦丁内斯库米隆·康斯坦丁内斯库(罗马尼亚语:Miron Constantinescu;1917年12月13日-1974年7月18日),罗马尼亚共产党中央政治执行委员会委员、中央书记处书记、罗马尼亚部长会议第一副主席。1