语音加强

✍ dations ◷ 2025-10-29 23:29:55 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 起始密码子起始密码子(英语:Start Codon)是指定信使RNA(mRNA)上开始合成蛋白质的密码子,也是第一个被核糖体翻译的mRNA上的密码子。起始密码子位于编码区内,紧邻5′非翻译区(原核生物的核糖体
  • 格鲁伊纳岛格鲁伊纳岛(英语:'Gruinard Island',发音: /ˈɡrɪnjərd/ GRIN-yərd;苏格兰盖尔语:'Eilean Ghruinneard')是英国苏格兰西北部海岸附近的一座小岛,与大陆(不列颠岛)最近点距离仅1.1
  • 基因敲除基因敲除(英语:gene knock-out,缩写为KO)是一种遗传工程技术。是指利用外源的已突变的基因通过同源重组的方法替换掉内源的正常同源基因,从而使内源基因失活而表现突变体的性状的
  • 食糜食糜(英语:chyme,语源来自于希腊语:χυμός,意思为汁液)是一种从胃离开,进入十二指肠的半流体物质,成分为部分消化的食物。食糜在英文中又称作“chymus”,是一种液体状物质,会在通
  • 塞拉利尼事件塞拉利尼事件是围绕法国分子生物学家塞拉利尼(英语:Gilles-Éric Séralini)(Gilles-Eric Seralini)发表、撤回和重新发表一篇期刊文章的争议。这篇文章于2012年9月首次发表在《
  • 经济产业省经济产业省(日语:経済産業省/けいざいさんぎょうしょう keizai sangyō shō */?,英语:Ministry of Economy, Trade and Industry),简称经产省、METI,是日本行政机关之一,以提高民
  • 罗霄山脉罗霄山脉是万洋山、诸广山和武功山的统称,这些东北至西南走向次级山脉构成罗霄山脉,是湖南和江西两省的自然界线。主要山峰海拔多在1000米以上。其中著名的山峰有八面山,井冈山
  • 匹兹堡邮报《匹兹堡邮报》(英语:Pittsburgh Post-Gazette),是美国大匹兹堡地区最大的日报,曾名为《The Pittsburgh Gazette》,于1786年7月29日首次发行。自1938年以来,《匹兹堡邮报》共获得过
  • 布雷特·达尔顿布雷特·达尔顿(英语:Brett Dalton,1983年1月7日-)是美国的一位演员。他最著名的作品是ABC电视剧《神盾局特工》,他在这部电视剧中饰演Agent Grant Ward角色。他和他的女朋友及女
  • 李载元李载元(朝鲜语:이재원/李載元,1831年-1891年),朝鲜王朝后期王族、大臣。字舜八,本贯全州李氏,出生于汉城(今韩国首尔)。他的生父兴完君李晸应是兴宣大院君李昰应的仲兄,因此李载元是兴宣