声学模型

✍ dations ◷ 2025-12-09 04:36:17 #计算语言学,语音识别

声学模型(Acoustic model)是语音识别系统中最为重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

声学模型的输入是由特征提取模块提取的特征。一般来说,这些特征是多维的向量,并且其取值可以是离散或连续的。早期的声学模型常常采用矢量量化(Vector Quantification)的方法,将信号直接映射到某个码本 k {\displaystyle k} ,根据上下文的不同将其拆分成不同的建模单元。例如,用表示在之后,之前发音的具体实现。上下文的选择方法有很多,最常见的是三音子建模单元,也就是考虑左上文右下文各一个音子,加上中心音子形成三音子对。

上下文相关建模大大提高了建模的准确性,但是同时也使得模型数量急剧膨胀,使得模型的可训练性大大降低。为了解决这一问题,就需要引入某些聚类算法来减少模型中需要训练的参数。

为了解决模型参数过多的问题,可以使用某些聚类方法来减小模型中的参数数量,提高模型的可训练性。聚类可以在模型层次,状态层次乃至混合高斯模型中每个混合的层次进行。可以将半连续隐马模型看作进行高斯混合进行聚类后的连续隐马模型。目前应用最多的方法是对状态聚类的方法。其思路是,根据状态间混合高斯模型概率输出的相似性,将输出概率接近的状态聚合在一起,以便对其的训练更加充分。聚类的方法有基于规则的方法和数据驱动方法两类。

聚类后的状态被称为Senone,每个Senone都是完整独立的高斯混合模型,它也是解码过程中的最基本单元。

传统上,参数估计使用的方法为Baum-Welch算法,属于最大似然准则下的EM算法。目前研究者提出了多种区分性训练方法(仍然属于产生式模型,但使用区分性准则)进行训练,取得了较好的效果。

相关

  • 中国-康奈尔-牛津计划中国-康奈尔-牛津计划(China–Cornell–Oxford Project)是20世纪80年代在中国农村对于流行病的大型观察性研究,由康纳尔大学、牛津大学和中国政府共同出资1990年5月,《纽约时报
  • 广播电台电台广播(英语:Radio broadcasting),又称无线电广播、声音广播或收音机广播,是以无线电波单向传递声音信息的方式,一般是以高频广播。电台发送广播频率后,听众透过收音机来接收。依
  • 己卯士祸己卯士祸(朝鲜语:기묘사화/己卯士禍)是朝鲜王朝中期的一场士祸,发生于1519年(中宗14年)。因该年是己卯年,故而得名。1506年,朝鲜中宗在朴元宗等人的支持下夺取了燕山君的王位,是为中宗
  • 影片 (消歧义)影片可能指:
  • 赤松健赤松健(日语:あかまつ けん,1968年7月5日-)是日本的男性漫画家,东京都东久留米市人,出生于爱知县名古屋市。自高中起确立创作的志向,后来渐渐往漫画界发展。他凭着短篇漫画《短暂夏
  • 绿色可口可乐瓶绿色可口可乐瓶是美国艺术家安迪·华荷1962年6至7月间的画作。华荷在画布上以绿色印了7排各16个可口可乐瓶,总共有112瓶,而在底部则有红色的可口可乐商标。由于运用了网版印刷
  • Elk ClonerElk Cloner是第一个已知被广泛传播的计算机病毒。当时15岁的高中生里奇·斯克伦塔(英语:Rich Skrenta)为Apple II操作系统写了这个病毒,该病毒被存储在软盘上。当计算机启动感染
  • 约翰·布朗 (废奴主义者)约翰·布朗(John Brown;1800年5月9日-1859年12月2日),美国起义领袖、废奴主义者,1856年曾参加堪萨斯内战,赢得胜利。1859年他率众在哈伯斯费里举事,要求废除奴隶制,并逮捕一些庄园主,
  • 阿亚提·阿布德·拉哈曼阿亚提·阿布德·拉哈曼(阿拉伯语:عطية عبد الرحمن‎ ;1970年-2011年8月22日),盖达组织成员,也是利比亚伊斯兰战斗组织和安萨尔·松纳的成员。2011年8月22日阿亚提·
  • 拟斗牛犬蚁属拟斗牛犬蚁属()是一个罕见的蚁科属别,仅有大眼拟斗牛犬蚁()一个物种。他们生活在澳洲南方的原始尤加利树林中。拟斗牛犬蚁完整的分布范围从未被评估过,因此无从得知是否为广泛分布