语音加强

✍ dations ◷ 2025-06-30 11:41:28 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 涅涅茨自治区涅涅茨自治区(俄语:Нене́цкий автоно́мный о́круг,罗马化:Nenetsky avtonomny okrug,涅涅茨语:Ненёцие автономной ӈокрук),是俄
  • 全球主义全球主义(英语:Globalism)是一个国际关系理论术语,指称一个倡导全球化概念的意识形态。它倾向于倡导移民、自由贸易、降低关税、干预主义(英语:Interventionism (politics))和全球
  • 宇宙学年表宇宙学年表是人类在过去两年多千年来对于宇宙认识的发展记录。现代宇宙学的思想遵循科学学科物理宇宙学的发展。
  • 卡尔·李卜克内西卡尔·李卜克内西(德语:Karl Liebknecht;1871年8月13日-1919年1月15日),德国马克思主义政治家、律师,德国共产党的创始人之一。李卜克内西生于莱比锡,父亲威廉·李卜克内西是德国社
  • 伊里伊里,Elli或Elle。是北欧神话中“老年”(old age)的拟人化,形象是一名老妇人,是索尔(Thor)在一场角力战中的对手。故事被记载于《散文埃达》的〈欺骗古鲁菲〉(Gylfaginning)篇中,索尔
  • EpcotEpcot、或者未来世界,是一座位于美国佛罗里达州 布埃纳文图拉湖华特迪士尼世界度假区里的迪士尼主题公园,它是该度假区内的第二座主题公园,Epcot在1982年10月1日开启,当时叫做EP
  • 安东 (萨克森国王)安东(Anton ,1755年12月27日-1836年6月6日),全名安东·克莱门斯·泰奥多尔·玛利亚·约瑟夫·约翰·艾万格利斯塔·约翰·奈波穆克·弗朗茨·克萨韦尔·阿洛易斯·延努阿尔(),绰号“
  • 安德烈·兰科夫安德烈·尼古拉耶维奇·兰科夫(俄语:Андрей Николаевич Ланьков,1963年7月26日-),俄罗斯北朝鲜问题专家,现居首尔,为首尔国民大学历史教授。1963年7月26日,兰
  • 刘棣怀刘棣怀(1897年-1979年),中国围棋棋手,号昌华,绰号“刘大将”,与北京过惕生并称“南刘北过”。安徽桐城人,生于南京,13岁入南京北营小学读书,常至夫子庙看围棋对局,后从僧人释可慧学棋。
  • 王以衔王以衔(1761年-1823年),字署冰,号勿庵。归安(今浙江湖州市)菱湖镇人(清·菱湖镇志)。王氏“始迁祖”王宗祥,明末自休宁合阳(今属安徽黄山市屯溪区)迁居归安。王以衔为王宗祥六世孙,生于乾