Baum-Welch算法

✍ dations ◷ 2025-07-02 09:53:04 #估计理论,算法

在电气工程、计算机科学、统计计算和生物信息学中,Baum-Welch算法是用于寻找隐马尔可夫模型(HMM)未知参数的一种EM算法,它利用前向-后向算法来计算E-Step的统计信息。

Baum-Welch算法是以其发明者Leonard E. Baum和Lloyd R. Welch的名字命名的。Baum-Welch算法和隐马尔可夫模型在20世纪60年代末和70年代初由Baum和他的同事在国防分析研究所的一系列文章中首次描述。HMMs最初主要应用于语音处理领域。20世纪80年代,HMMs开始成为分析生物系统和信息,特别是遗传信息的有用工具。此后,它们成为基因组序列概率建模的重要工具。

隐马尔可夫模型描述了一组“隐含”变量和可观测到的离散随机变量的联合概率。它依赖于假设:第 i {\displaystyle i} 个隐藏变量只与第 i 1 {\displaystyle i-1} 个隐含变量相关,而与其他先前的隐藏变量无关,而当前观测到的状态仅依赖于当前的隐藏状态。

Baum-Welch算法利用EM算法,在给定一组观测特征向量的情况下,求出隐马尔可夫模型参数的最大似然估计。

记离散的隐含随机变量为 X t {\displaystyle X_{t}} ,它总共有 N {\textstyle N} 种状态( X t {\displaystyle X_{t}} N {\displaystyle N} 个不同的值)。设 P ( X t | X t 1 ) {\displaystyle P(X_{t}|X_{t-1})} 与时间无关,得到与时间无关的随机变量转移矩阵:

A = { a i j } = P ( X t = j | X t 1 = i ) {\displaystyle A=\{a_{ij}\}=P(X_{t}=j|X_{t-1}=i)}
初始的状态(即 t = 1 {\displaystyle t=1} )分布由下式给出:

π i = P ( X 1 = i ) {\displaystyle \pi _{i}=P(X_{1}=i)}

记观测到的变量为 Y t {\displaystyle Y_{t}} ,总共有 K {\displaystyle K} 种取值。同样假设由隐含变量得到的可观测变量与时间无关。在时间 t {\displaystyle t} ,由隐含变量 X t = j {\displaystyle X_{t}=j} 得到的可观察变量 Y t = y i {\displaystyle Y_{t}=y_{i}} 的概率是:

b j ( y i ) = P ( Y t = y i | X t = j ) {\displaystyle b_{j}(y_{i})=P(Y_{t}=y_{i}|X_{t}=j)}

由所有可能得 X t {\displaystyle X_{t}} Y t {\displaystyle Y_{t}} 的取值,我们可以得到 N × K {\displaystyle N\times K} 的矩阵 B = { b j ( y i ) } {\displaystyle B=\{b_{j}(y_{i})\}} ,其中 b j {\displaystyle b_{j}} 属于所有可能得隐含状态, y i {\displaystyle y_{i}} 属于所有的可观测状态。

给出可观测序列: Y = ( Y 1 = y 1 , Y 2 = y 2 , , Y T = y T ) {\displaystyle Y=(Y_{1}=y_{1},Y_{2}=y_{2},\cdots ,Y_{T}=y_{T})}

我们可以用 θ ( A , B , π ) {\textstyle \theta (A,B,\pi )} 描述隐马尔科夫链,Baum-Welch算法寻找 θ = arg m a x θ P ( Y | θ ) {\displaystyle \theta ^{*}=\arg {\underset {\theta }{max}}P(Y|\theta )} 的局部极大值,也就是能够使得观测到的序列出现的概率最大的HMM的参数 θ {\displaystyle \theta }

初始化参数 θ ( A , B , π ) {\displaystyle \theta (A,B,\pi )} ,可以随机初始化,或者根据先验知识初始化。

α i ( t ) = P ( Y 1 = y 1 , Y 2 = y 2 , , Y t = y t , X t = i | θ ) {\displaystyle \alpha _{i}(t)=P(Y_{1}=y_{1},Y_{2}=y_{2},\cdots ,Y_{t}=y_{t},X_{t}=i|\theta )} 是参数 θ {\displaystyle \theta } 的条件下,观测的序列是 y 1 , y 2 , , y t {\displaystyle y_{1},y_{2},\cdots ,y_{t}} ,时刻 t {\displaystyle t} 的状态是 i {\displaystyle i} 的概率。可以通过递归计算:

β i ( t ) = P ( Y t + 1 = y t + 1 , , Y T = y T | X t = i , θ ) {\displaystyle \beta _{i}(t)=P(Y_{t+1}=y_{t+1},\cdots ,Y_{T}=y_{T}|X_{t}=i,\theta )} 是参数是 θ {\displaystyle \theta } ,在时刻 t {\displaystyle t} 的状态是 i {\displaystyle i} 的条件下,余下部分的观测序列是 y t + 1 , , y T {\displaystyle y_{t+1},\cdots ,y_{T}} 的概率。

假设我们有一只会下蛋的鸡,每天中午我们都会去拾取鸡蛋。而鸡是否下蛋依赖于一些未知的隐含状态,这里我们简单的假设只有两种隐含状态会决定它是否下蛋。我们不知道这些隐含状态的初始值,不知道他们之间的转换概率,也不知道在每种状态下鸡会下蛋的概率。我们随机初始化他们来开始猜测。

假设我们得到的观测序列是(E=eggs, N=no eggs): N, N, N, N, N, E, E, N, N, N。

这样我们同时也得到了观测状态的转移:NN, NN, NN, NN, NE, EE, EN, NN, NN。

通过上面的信息来重新估计状态转移矩阵。

重新估计 S 1 {\displaystyle S_{1}} S 2 {\displaystyle S_{2}} 的转移概率为 0.22 2.4234 = 0.0908 {\displaystyle {\frac {0.22}{2.4234}}=0.0908} (下表中的"Pseudo probabilities"),重新计算所有的转移概率,得到下面的转移矩阵:

接下来重新估计Emission Matrix:

重新估计从隐含状态 S 1 {\displaystyle S_{1}} 得到观察结果E的概率是 0.2394 0.2730 = 0.8769 {\displaystyle {\frac {0.2394}{0.2730}}=0.8769} ,得到新的Emission Matrix

为了估计初始状态的概率,我们分别假设序列的开始状态是 S 1 {\displaystyle S_{1}} S 2 {\displaystyle S_{2}} ,然后求出最大的概率,再归一化之后更新初始状态的概率。

一直重复上面的步骤,直到收敛。

相关

  • 楚汉战争楚齐楚汉战争,或称楚汉相争,是秦朝灭亡后,项羽和刘邦之间为争夺统治权力而进行的战争。时间一般认定为前206年-前202年,秦朝灭亡之后开始,一直到项羽于乌江边自刎结束。楚汉战争结
  • 洛伦兹变换洛伦兹变换是观测者在不同惯性参照系之间对物理量进行测量时所进行的转换关系,在数学上表现为一套方程组。洛伦兹变换因其创立者——荷兰物理学家亨德里克·洛伦兹而得名。洛
  • 海伦海伦(古希腊语:Ἑλένη, Helénē,英语:Helen of Troy)是希腊神话中宙斯与勒达之女,被称为“世上最美的女人”,她和特洛伊王子帕里斯私奔,引发了特洛伊战争。希腊神话中,天神宙斯
  • 别迦摩别迦摩(希腊语:Πέργαμος;现代土耳其语:Bergama),或称巴格门古城,是安纳托利亚古国,现在是土耳其境内贝尔加马的一处历史遗迹。别迦摩原是密细亚(安纳托利亚西北部)的一座古希
  • 朴趾源朴趾源(박지원;1737年-1805年2月5日),字仲美,号燕石,谥号“文度公”,朝鲜王朝后期的著名文学家,朝鲜实学北学派的代表人。本贯潘南朴氏,祖父是朴弼均。他的一家在当时的朝鲜是名门世臣
  • 蛇口客运码头蛇口客运码头(又称蛇口港)位于中华人民共和国广东省深圳市南山区,是一个水、陆客货运输枢纽和设备齐全、综合性、多功能的对外开放口岸。始建于1981年,隶属招商局集团辖下招商局
  • 脂壁酸脂壁酸或称为脂磷壁酸(英语: Lipoteichoic acid),简写为 LTA,是菌体细胞壁的成分之一,由重复性的甘油磷酸 (glycerophosphate, GroP) 骨架组合而成,上面键结许多糖脂 (glycolipid)
  • 米哈伊尔·米哈伊洛维奇·巴赫京米哈伊尔·米哈伊洛维奇·巴赫金(俄语:Михаил Михайлович Бахтин;1895年11月17日-1975年3月7日),出生于俄国奥廖尔,是现代文学理论与文学批评重要理论家。巴
  • 威廉·赫特威廉·麦寇德·赫特(英语:William McChord Hurt,1950年3月20日-)是美国舞台剧和电影演员。他毕业于朱利亚德学院,1970年代进入剧场,参与大大小小的舞台剧表演。1980年他以电影《变
  • 产品层次产品层次是行销学上将产品的本质区分成三个层次,以探讨消费者对产品的感觉,以及如何进一步刺激消费者消费的改进方向。产品层次仅为一概念,提供新产品开发与行销的发展方向,但实