语音加强

✍ dations ◷ 2025-09-09 23:57:21 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 兰德纸草书莱因德数学纸草书(又译作林德数学手卷;Rhind Mathematical Papyrus),也称阿姆士(Ahmose)纸草书,或者大英博物馆10057和10058号纸草书,是古埃及第二中间期时代(约前1650年)由僧侣阿姆士
  • 演讲演讲,又名演说、讲演,是指对公众发表的说话。根据个人风格,不少讲者喜欢原稿照读(英语:manuscript speech);另外有些喜欢即兴发挥 (粤语俗称“爆肚”,英语:impromptu speech);甚至有些不
  • 洪 业洪业(1893年10月27日-1980年12月22日),字鹿芩,号煨莲(取其英文名William的谐音),福建侯官人,中国历史学家。他的一生对于编纂中国古籍引得、哈佛燕京学社的发展作出不可忽略的贡献。2
  • 空袭东京东南亚地区:缅甸:西南太平洋地区:北美地区:日本:满洲地区:空袭东京,亦常称杜立特空袭(英语:Doolittle Raid),是美国于第二次世界大战期间的1942年4月18日时,向日本本土首次进行的空中轰
  • 鹤形目鹤形目(学名:Gruiformes)在生物分类学上是鸟纲中的一个目。
  • 埃布罗河口省埃布罗河口省(法语:Département des Bouches-de-l'Èbre;西班牙语:Departamento de las Bocas del Ebro;加泰罗尼亚语:Departament de les Boques del Ebre)是法兰西第一帝国的一
  • 来自地球的人John BillingsleyAnchor Bay Entertainment,《来自地球的人》(英语:,又译:这个男人来自地球、地球不死人)是一部2007年出品的独立电影。由Richard Schenkman执导,Jerome Bixby编剧
  • 张元 (导演)张元(1963年10月25日-),男,江苏南京人,中国大陆电影导演。1989年取得北京电影学院摄影系学士学位,毕业后个人集资独立制片。张元自资拍摄了电影《妈妈》及《北京杂种》,曾经在多个国
  • 提奥多·杜布瓦弗朗索瓦-克莱门特·提奥多·杜布瓦(法语:François-Clément Théodore Dubois ,1837年8月24日-1924年6月11日),法国作曲家,音乐教育家。生于马恩省的一个小镇,后进入巴黎音乐学院,1
  • 高若瑟高若瑟枢机(英语:Cardinal José da Costa Nunes,1880年3月15日-1976年11月29日)是葡萄牙籍的天主教司铎级枢机。更在1972年8月14日至1976年11月29日是为在世最年长枢机,并曾担任