鲍姆-韦尔奇算法

✍ dations ◷ 2025-11-12 23:25:12 #鲍姆-韦尔奇算法

在电气工程、计算机科学、统计计算和生物信息学中,鲍姆-韦尔奇算法是用于寻找隐马尔可夫模型未知参数的最大期望算法,它利用前向-后向算法来计算E-Step的统计信息。

鲍姆-韦尔奇算法是以其发明者伦纳德·埃绍·鲍姆和劳埃德·理查德·韦尔奇的名字命名的。鲍姆-韦尔奇算法和隐马尔可夫模型在20世纪60年代末和70年代初由鲍姆和他的同事在国防分析研究所的一系列文章中首次描述。HMMs最初主要应用于语音处理领域。20世纪80年代,HMMs开始成为分析生物系统和信息,特别是遗传信息的有用工具。此后,它们成为基因组序列概率建模的重要工具。

隐马尔可夫模型描述了一组“隐含”变量和可观测到的离散随机变量的联合概率。它依赖于假设:第 i {displaystyle i} 个隐藏变量只与第 i 1 {displaystyle i-1} 个隐含变量相关,而与其他先前的隐藏变量无关,而当前观测到的状态仅依赖于当前的隐藏状态。

鲍姆-韦尔奇算法利用最大期望算法,在给定一组观测特征向量的情况下,求出隐马尔可夫模型参数的最大似然估计。

记离散的隐含随机变量为 X t {displaystyle X_{t}} ,它总共有 N {textstyle N} 种状态( X t {displaystyle X_{t}} N {displaystyle N} 个不同的值)。设 P ( X t | X t 1 ) {displaystyle P(X_{t}|X_{t-1})} 与时间无关,得到与时间无关的随机变量转移矩阵:

A = { a i j } = P ( X t = j | X t 1 = i ) {displaystyle A={a_{ij}}=P(X_{t}=j|X_{t-1}=i)}
初始的状态(即 t = 1 {displaystyle t=1} )分布由下式给出:

π i = P ( X 1 = i ) {displaystyle pi _{i}=P(X_{1}=i)}

记观测到的变量为 Y t {displaystyle Y_{t}} ,总共有 K {displaystyle K} 种取值。同样假设由隐含变量得到的可观测变量与时间无关。在时间 t {displaystyle t} ,由隐含变量 X t = j {displaystyle X_{t}=j} 得到的可观察变量 Y t = y i {displaystyle Y_{t}=y_{i}} 的概率是:

b j ( y i ) = P ( Y t = y i | X t = j ) {displaystyle b_{j}(y_{i})=P(Y_{t}=y_{i}|X_{t}=j)}

由所有可能得 X t {displaystyle X_{t}} Y t {displaystyle Y_{t}} 的取值,我们可以得到 N × K {displaystyle Ntimes K} 的矩阵 B = { b j ( y i ) } {displaystyle B={b_{j}(y_{i})}} ,其中 b j {displaystyle b_{j}} 属于所有可能得隐含状态, y i {displaystyle y_{i}} 属于所有的可观测状态。

给出可观测序列: Y = ( Y 1 = y 1 , Y 2 = y 2 , , Y T = y T ) {displaystyle Y=(Y_{1}=y_{1},Y_{2}=y_{2},cdots ,Y_{T}=y_{T})}

我们可以用 θ ( A , B , π ) {textstyle theta (A,B,pi )} 描述隐马尔科夫链,鲍姆-韦尔奇算法寻找 θ = arg m a x θ P ( Y | θ ) {displaystyle theta ^{*}=arg {underset {theta }{max}}P(Y|theta )} 的局部极大值,也就是能够使得观测到的序列出现的概率最大的HMM的参数 θ {displaystyle theta }

初始化参数 θ ( A , B , π ) {displaystyle theta (A,B,pi )} ,可以随机初始化,或者根据先验知识初始化。

α i ( t ) = P ( Y 1 = y 1 , Y 2 = y 2 , , Y t = y t , X t = i | θ ) {displaystyle alpha _{i}(t)=P(Y_{1}=y_{1},Y_{2}=y_{2},cdots ,Y_{t}=y_{t},X_{t}=i|theta )} 是参数 θ {displaystyle theta } 的条件下,观测的序列是 y 1 , y 2 , , y t {displaystyle y_{1},y_{2},cdots ,y_{t}} ,时刻 t {displaystyle t} 的状态是 i {displaystyle i} 的概率。可以通过递归计算:

β i ( t ) = P ( Y t + 1 = y t + 1 , , Y T = y T | X t = i , θ ) {displaystyle beta _{i}(t)=P(Y_{t+1}=y_{t+1},cdots ,Y_{T}=y_{T}|X_{t}=i,theta )} 是参数是 θ {displaystyle theta } ,在时刻 t {displaystyle t} 的状态是 i {displaystyle i} 的条件下,余下部分的观测序列是 y t + 1 , , y T {displaystyle y_{t+1},cdots ,y_{T}} 的概率。


假设我们有一只会下蛋的鸡,每天中午我们都会去拾取鸡蛋。而鸡是否下蛋依赖于一些未知的隐含状态,这里我们简单的假设只有两种隐含状态会决定它是否下蛋。我们不知道这些隐含状态的初始值,不知道他们之间的转换概率,也不知道在每种状态下鸡会下蛋的概率。我们随机初始化他们来开始猜测。

假设我们得到的观测序列是(E=eggs, N=no eggs): N, N, N, N, N, E, E, N, N, N。

这样我们同时也得到了观测状态的转移:NN, NN, NN, NN, NE, EE, EN, NN, NN。

通过上面的信息来重新估计状态转移矩阵。

重新估计 S 1 {displaystyle S_{1}} S 2 {displaystyle S_{2}} 的转移概率为 0.22 2.4234 = 0.0908 {displaystyle {frac {0.22}{2.4234}}=0.0908} (下表中的"Pseudo probabilities"),重新计算所有的转移概率,得到下面的转移矩阵:

接下来重新估计Emission Matrix:

重新估计从隐含状态 S 1 {displaystyle S_{1}} 得到观察结果E的概率是 0.2394 0.2730 = 0.8769 {displaystyle {frac {0.2394}{0.2730}}=0.8769} ,得到新的Emission Matrix

为了估计初始状态的概率,我们分别假设序列的开始状态是 S 1 {displaystyle S_{1}} S 2 {displaystyle S_{2}} ,然后求出最大的概率,再归一化之后更新初始状态的概率。

一直重复上面的步骤,直到收敛。

相关

  • 自然-化学生物学《自然-化学生物学》(英文:Nature Chemical Biology)是《自然》杂志的化学生物学分册,也是该学科领域经由同行评审的权威科学期刊。该杂志于2005年创刊,由英国自然出版集团按每月
  • 三立iNEWS三立iNEWS(英语:SET iNEWS Channel)是三立电视旗下的财经新闻频道,于2011年5月3日开播,是三立电视第五个开播的频道,姊妹台频道为三立新闻台。原名三立财经台,2017年6月26日晚间六
  • 锡戈内拉海军航空基地锡戈内拉基地(NATO Base Sigonella,IATA代码:NSY;ICAO代码:LICZ),或译西哥奈拉基地,是一座位于意大利西西里岛的北约军用机场及大型后勤基地,由美国海军和意大利空军共用,美方称作锡戈
  • 大礼帽大礼帽,又名高帽。是19世纪晚期到20世纪初期一种阔边、平顶、高筒的男用帽子。目前只用于晨礼服及晚礼服中。
  • 周是修周是修(1354年-1402年),名德,以字行,江西行省吉安路太和州(今江西省泰和县)人,明朝政治人物。洪武年间,周是修因明经被举荐,担任霍邱训导,朱元璋问其家居何为,其答曰:“教人子弟,教弟力田。
  • 邓士廉邓士廉(1611年12月9日-1661年8月13日),字人麟,四川广安州人,明末政治人物。崇祯十五年壬午科中式四川乡试第九名举人,崇祯十六年癸未科会试诗三房,中式第304名,殿试三甲68名,都察院观
  • 恋花绽放樱飞时《恋花绽放樱飞时》游戏封面《恋花绽放樱飞时》(日语:恋がさくころ桜どき,直译“恋爱绽放的时候樱花季节”)是由Palette于2014年6月27日发售的一款成人向美少女游戏。Palette的
  • 化勒化勒(英语:Vual),为所罗门七十二柱魔神中排第47位的魔神,位阶公爵,统帅37个军团。别名“瓦尔”(Wall)。能够令召唤者夺得女性的爱,本身还通晓古今,可预言未来,平抑仇恨。
  • 吴军 (作曲家)吴军(1972年3月7日-),中国音乐学院作曲系多媒体音乐中心助教。2008年第29届北京奥林匹克运动会开幕式音乐主创人员。。中国音乐著作权协会会员。吴军1972年3月7日出生于四川省成都市。10岁时师从四川音乐学院王其书教授学习笛子。13岁考入中国音乐学院附属中学。1992年被保送进中国音乐学院作曲系,毕业后留校任教。现任中国音乐学院作曲系多媒体音乐中心助教。前外交部长李肇星为2008北京奥运会写歌曲《同一个世界 同一个梦想》的作曲。2008年第29届北京奥林匹克运动会开幕式音乐主创人员。中国音乐著作权
  • 长谷川法世长谷川法世(1945年9月6日-),日本漫画家。福冈市博多区出身,自福冈高等学校毕业后曾为了参加大学考试至东京,但最后立志当漫画家而回到福冈。1968年以〈正午の教会へ〉获得COM的月例新人赏。1972年以《痴连》正式出道。长谷川热爱故乡的风土人情,作品多以福冈为背景。1980年以《博多っ子纯情》、《がんがらがん》荣获第26届小学馆漫画赏,同年荣获博多町人文化勲章。2006年荣获福冈市文化赏,翌年荣获福冈县文化赏。