声学模型

✍ dations ◷ 2025-12-04 11:39:40 #计算语言学,语音识别

声学模型(Acoustic model)是语音识别系统中最为重要的部分之一,目前的主流系统多采用隐马尔科夫模型进行建模。隐马尔可夫模型的概念是一个离散时域有限状态自动机,隐马尔可夫模型HMM是指这一马尔可夫模型的内部状态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值通常就是从各个帧计算而得的声学特征。用HMM刻画语音信号需作出两个假设,一是内部状态的转移只与上一状态有关,另一是输出值只与当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。HMM的打分、解码和训练相应的算法是前向算法、维特比算法和前向后向算法。

声学模型的输入是由特征提取模块提取的特征。一般来说,这些特征是多维的向量,并且其取值可以是离散或连续的。早期的声学模型常常采用矢量量化(Vector Quantification)的方法,将信号直接映射到某个码本 k {\displaystyle k} ,根据上下文的不同将其拆分成不同的建模单元。例如,用表示在之后,之前发音的具体实现。上下文的选择方法有很多,最常见的是三音子建模单元,也就是考虑左上文右下文各一个音子,加上中心音子形成三音子对。

上下文相关建模大大提高了建模的准确性,但是同时也使得模型数量急剧膨胀,使得模型的可训练性大大降低。为了解决这一问题,就需要引入某些聚类算法来减少模型中需要训练的参数。

为了解决模型参数过多的问题,可以使用某些聚类方法来减小模型中的参数数量,提高模型的可训练性。聚类可以在模型层次,状态层次乃至混合高斯模型中每个混合的层次进行。可以将半连续隐马模型看作进行高斯混合进行聚类后的连续隐马模型。目前应用最多的方法是对状态聚类的方法。其思路是,根据状态间混合高斯模型概率输出的相似性,将输出概率接近的状态聚合在一起,以便对其的训练更加充分。聚类的方法有基于规则的方法和数据驱动方法两类。

聚类后的状态被称为Senone,每个Senone都是完整独立的高斯混合模型,它也是解码过程中的最基本单元。

传统上,参数估计使用的方法为Baum-Welch算法,属于最大似然准则下的EM算法。目前研究者提出了多种区分性训练方法(仍然属于产生式模型,但使用区分性准则)进行训练,取得了较好的效果。

相关

  • 脉络丛脉络丛是在脑室中由软脑膜及其上的反复分支的血管和室管膜上皮共同构成的脉络状组织丛状结构。脉络丛是产生脑脊液的主要结构。脉络丛可见于脑室系统除导水管、侧脑室前角和
  • 克麦罗沃州科麦罗州(俄语:Ке́меровская о́бласть,罗马化:Kemerovskaya oblast),位于西伯利亚南部西西伯利亚平原与南西伯利亚山区的交接点,是俄罗斯联邦主体之一。面积95
  • 软骨硬鳞亚纲软骨硬鳞亚纲(学名:Chondrostei)又名软质亚纲,为脊索动物门辐鳍鱼纲的一个亚纲,是辐鳍鱼纲的基群,保留了辐鳍鱼类一些原始的祖征,如软骨脊索等。软骨硬鳞鱼类具有骨质脑颅,但大部分
  • 教宗西斯笃四世教宗西斯笃四世(拉丁语:Sixtus PP. IV;1414年7月21日-1484年8月12日)原名方济各·德拉罗韦雷(意大利语:Francesco della Rovere),1471年8月9日至1484年8月12日岀任教宗。他解除了天主
  • 拉夫兰拉夫兰(英文:Loveland),是美国科罗拉多州拉里默尔县下属的一座城市。建市于1881年4月30日,面积大约为35.063平方英里(90.812平方公里)。根据2010年美国人口普查,该市有人口66,859人
  • 莒国,中国历史上春秋战国时代的一个诸侯国,国君为己姓,源自轩辕黄帝,建国于前1046年,建国君主是兹舆期。公元前431年为楚所灭,但是莒国的全境后来为齐国占领。《汉书·地理志》记
  • 17好聪明《17直播 17好聪明》,简称《17好聪明》,节目英文名“”,是17 Media与八大电视股份有限公司联合制作的即时互动益智节目,主持人为谢震武、解婕翎,由八大综合台于2018年2月24日首播
  • 死亡笔记 (2006年电影)《死亡笔记》是一部2006年的日本超自然侦探心理惊悚电影,由金子修介执导。它与它的续集《死亡笔记:最后的名字》都是依据大场鸫和小畑健的漫画作品《死亡笔记》改编而成。电影
  • 罗杰·B·托尼罗杰·布鲁克·托尼(Roger Brooke Taney /ˈtɔːni/ ,1777年3月17日-1864年10月12日),美国政治家,十五岁时即入宾夕法尼亚州狄金森学院,十八岁以成绩优等毕业。曾任美国司法部长(18
  • 杨木山站杨木山站是位于内蒙古自治区莫力达瓦达斡尔族自治旗杨木山村的一个铁路车站,邮政编码162893。车站建于1966年,有富西铁路经过该站,现不办理客货运业务,车站及其上下行区间均未电