最大期望算法

✍ dations ◷ 2025-07-26 22:19:52 #估计理论,算法,机器学习算法

最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。

在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

最大期望值算法由Arthur P. Dempster(英语:Arthur P. Dempster),Nan Laird(英语:Nan Laird)和Donald Rubin(英语:Donald Rubin)在他们1977年发表的经典论文中提出。他们指出此方法之前其实已经被很多作者“在他们特定的研究领域中多次提出过”。

EM算法用于在方程不能直接求解的情况下寻找统计模型的(局部)最大似然参数。这些模型中较为典型的是含有潜变量,未知参数并且已知观测数据的模型。也就是说,要么数据中存在缺失的值,要么模型可以通过假设存在更多未观测到的数据点来更简单地表示。以混合模型(Mixture Model)为例,通过假设每个观察到的数据点都有一个对应的未观察到的数据点,也可以说是潜在变量,来指定每个数据点所属的混合部分,这样就可以更简单地描述混合模型。

EM是一个在已知部分相关变量的情况下,估计未知变量的迭代技术。EM的算法流程如下:

我们用 y {\displaystyle {\textbf {y}}} 表示能够观察到的不完整的变量值,用 x {\displaystyle {\textbf {x}}} 表示无法观察到的变量值,这样 x {\displaystyle {\textbf {x}}} y {\displaystyle {\textbf {y}}} 一起组成了完整的数据。 x {\displaystyle {\textbf {x}}} 可能是实际测量丢失的数据,也可能是能够简化问题的隐藏变量,如果它的值能够知道的话。例如,在混合模型中,如果“产生”样本的混合元素成分已知的话最大似然公式将变得更加便利(参见下面的例子)。

p {\displaystyle p\,} 代表矢量 θ {\displaystyle \theta } : p ( y , x | θ ) {\displaystyle p(\mathbf {y} ,\mathbf {x} |\theta )} 定义的参数的全部数据的几率密度函数(连续情况下)或者几率质量函数(离散情况下),那么从这个函数就可以得到全部数据的最大似然值,另外,在给定的观察到的数据条件下未知数据的条件分布可以表示为:

相关

  • Ku波段1 2 3 4 5 6 7 8 9 10 11ELF SLF ULF VLF LF MF HF VHF UHF SHF EHFA B C D E F G H I J K L MHF VHF UHF L S C X Ku K Ka Q V W根据IEEE 521-2002标准,Ku波段是指频率在12-
  • 食物变质变质、腐败指的是食物恶化、对于人类的可食用性下降的过程。收割的食品,从它们被收割后就开始分解,这是酶、氧化和微生物引起的,具体包括细菌、霉菌、酵母菌、湿度、温度和化学
  • 各国议会联盟各国议会联盟(Inter-Parliamentary Union, IPU)是一个总部设于瑞士日内瓦的国际组织。由英国下议院议员威廉·兰德尔·克里默和法国国民议会议员弗雷德里克·帕西于1889年6月2
  • RIP路由信息协议(英语:Routing Information Protocol,缩写:RIP)是一种内部网关协议(IGP),为最早出现的距离向量路由协议。属于网络层,其主要应用于规模较小的、可靠性要求较低的网络,可以
  • 自治省自治省(日语:自治省/じちしょう Jichishō、英语:Ministry of Home Affairs)是1960年7月1日~2001年1月5日存在的管辖地方行财政・消防・选举制度等之日本中央省厅。首长是自治大
  • 赤岗塔坐标:23°6′15.16″N 113°19′2.34″E / 23.1042111°N 113.3173167°E / 23.1042111; 113.3173167赤岗塔位于中国广东省广州市海珠区赤岗,是一座明代楼阁式砖塔,1989年被列
  • 叠氮化亚硝酰叠氮化亚硝酰,也称一氧化四氮,是一种极不稳定的氮氧化物,化学式为N4O。它可以通过以下反应在低温下制备:低于-50°C时该物质是一种淡黄色固体。一旦超过这个温度,它会分解成一氧
  • 阿克塞尔·施普林格玛莎·埃勒森·梅耶(Martha Else Meyer、结于1933年) 厄娜·佛莉达·柏塔·霍姆(Erna Frieda Berta Holm、结于1939年) 萝丝玛莉·艾尔森(Rosemarie Alsen、结于1953年) 海格尔·
  • 利普·派克球员时期教练时期利普曼·伊曼纽·“利普”·派克(英语:Lipman Emanuel "Lip" Pike, 1845年5月25日-1893年10月10日),绰号“Iron Batter”,为19世纪美国棒球选手。他是第一位美国
  • 大地坐标系大地坐标系是由大地经度和大地纬度构成的坐标系。由右图所示,P点的子午面NPS与起始子午面NGS所构成的二面角L,叫做P点的大地经度,由起始子午面起算,向东为正,叫东经(0度~180度),向西