最大期望算法

✍ dations ◷ 2025-10-11 23:10:15 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • 布鲁斯·艾伯茨布鲁斯·迈克尔·艾伯茨(英语:Bruce Michael Alberts,1938年4月14日-),出生于芝加哥,美国生物化学家,2005年任国家科学院主席。他曾就读于哈佛大学,1965年毕业。 1976年,他成为普林斯
  • 方钠石方纳石(英语:Sodalite),又称苏打石,为蓝色架状硅酸盐矿物,被广泛作为装饰用的宝石。尽管块状的方纳石大多呈现不透明,但是晶体通常是透明到半透明的。和蓝方石、黝方石(英语:Nosean)、
  • 斯派克·李'奥斯卡荣誉奖2015年斯派克·李(英语:Spike Lee,1957年3月20日-),原名谢尔顿·杰克逊·李(Shelton Jackson Lee),美国电影制作人、导演、剧本写作者及演员。他曾获得艾美奖,并曾获得奥
  • 卡塞凯姆威卡塞凯姆威(Khasekhemwy,有时候也拼作Khasekhemui)是古埃及第二王朝的第五位、也是最后一位法老。现今只知道卡塞凯姆威指挥过数次重大的军事行动,并树立了多座留存至今的纪念碑
  • 刘承钊刘承钊(1900年-1976年),原名承诏,字令擎,山东泰安人,中国两栖爬行动物研究的学科奠基人。1927年毕业于燕京大学生物学系,获学士学位,1929年又获理学硕士学位。1934年获美国康奈尔大学
  • 打拉根岛打拉根岛是印度尼西亚的岛屿,位于北加里曼丹省以东和婆罗洲东南的西里伯斯海东部,面积303平方公里(117平方英哩)。1942年至1945年期间,打拉根岛是同盟国和日本军队交锋的战场。坐
  • 对数尺度对数尺度(logarithmic scale)是一个非线性的测量尺度,用在数量有较大范围的差异时。像里氏地震震级、声学中的音量、光学中的光强度、及溶液的PH值等。对数尺度是以数量级为基
  • TAS2R20味觉感受器,类型2,成员20,TAS2R20 是一个人类基因组中基因编码的蛋白质,是苦味味觉感受器的一员。
  • 1-氯-1,2,2,2-四氟乙烷1-氯-1,2,2,2-四氟乙烷,别名HCFC-124,化学式C2HClF4是一种氢氟氯碳化物。它是一种用来取代氟氯碳化物的冷冻剂。HCFC-124 也是一种灭火剂,可用来取代哈龙。
  • 毛西番莲毛西番莲(学名:)又称为小时计果、野百香果、龙珠果,为二年生蔓性草本植物,常见于广西、广东、云南和台湾。常逸生于海拔120-500米草坡路边灌丛中。本种原产西印度群岛,现为泛热带