语音加强

✍ dations ◷ 2025-08-13 23:17:11 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 本地治里本地治里(泰米尔语:பாண்டிச்சேரி,印地语:पॉंडिचेरी,法语:Pondichéry,英文:Pondicherry,泰米尔语拉丁字母转译为作Puduchery),又译为朋迪榭里,其名于泰米尔语中意
  • 段祺瑞段祺瑞(1865年3月6日-1936年11月2日),原名启瑞,字芝泉,中国安徽合肥(今属肥西县)人,为中华民国政治家,皖系军阀首领,曾三次出任国务总理,1916年至1920年为北洋政府的实际掌权者和领导人
  • 六月节六月节也被称作是六月独立日,自由日或解放日,是一个美国的节日,为了纪念美国德克萨斯州在1865年6月宣布废除奴隶制的事件,更一般地,是为了纪念美国南部黑人奴隶的解放。这个节日
  • 集市教堂 (汉诺威)坐标:52°22′18″N 9°44′6″E / 52.37167°N 9.73500°E / 52.37167; 9.73500集市教堂(德语:)是位于德国北部城市汉诺威的一座路德宗的教堂,也是汉诺威主要的路德宗教堂。教堂
  • 乳碱综合征乳碱综合征(英语:Milk-alkali syndrome)是摄入过多的钙和可吸收的碱引起的高血钙和代谢性碱中毒(英语:metabolic alkalosis),用于预防骨质疏松症的膳食补充剂和抗酸药是常见的导致
  • 钕磁铁钕磁铁(Neodymium magnet)也称为钕铁硼磁铁(NdFeB magnet),是由钕、铁、硼(Nd2Fe14B)形成的四方晶系晶体。于1982年,住友特殊金属的佐川真人发现钕磁铁。这种磁铁的磁能积(BHmax)大于
  • 钢和泰钢和泰(Alexander von Staël-Holstein,1877年-1937年),波罗的海德国人,俄国男爵,汉学家、梵语学者。后寓居中国燕京,任教于北京大学,著名学者陈寅恪与胡适都曾跟从钢和泰学习梵文。
  • 詹姆斯·穆勒詹姆斯·穆勒(英文:James Mill,1773年4月6日-1836年6月23日),也译作詹姆斯·密尔,是一位苏格兰历史学家、经济学家、政治理论家、哲学家。他与大卫·李嘉图一同是古典经济学的创始
  • 布赖斯高布赖斯高(Breisgau)是位于德国西南部莱茵河和黑森之间的一个地区。在行政区划上属于巴登-符登堡邦。布赖斯高的中心城市弗赖堡。布赖斯高是德国气候最为温暖的地区,年平均气温
  • 戴安娜·瑞格戴安娜·瑞格(英语:Diana Rigg,1938年7月20日-)出生于英国英格兰约克郡,为英国著名女演员。1938年,瑞格出生于英国英格兰约克郡,父亲是铁路工程师,在英属印度兴建铁路,儿时她也曾陪着