语音加强

✍ dations ◷ 2024-12-23 09:55:45 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 德国统一社会党已消亡已放弃共产主义意识形态已消亡已放弃共产主义意识形态已消亡已放弃共产主义意识形态已消亡已消亡已放弃共产主义意识形态德国统一社会党(德语:Sozialistische Einheitsp
  • 抑制免疫疗法免疫抑制(英语:immunosuppression)是指对于免疫应答的抑制作用。免疫抑制可由天然或人为因素导致。天然免疫抑制包括天然免疫耐受,机体可能会对自身组织成分不产生免疫应答。人
  • 三甲基氰硅烷三甲基氰硅烷(简称TMSCN,分子式(CH3)3SiCN),室温下为挥发性液体。该化合物在有机合成中作为剧毒的HCN之替代试剂,用于向分子中引入氰基。可由氰化锂与三甲基氯硅烷制备:合成中最主
  • 图海图海(满语:ᡨᡠᡥᠠᡳ,穆麟德:tuhai,?-1681年),字麟洲,马佳氏,满洲正黄旗,世居绥芬府(今黑龙江省宁安市一带)。史载“颇谙兵略,为满大臣中翘楚。”顺治二年(1645年),自笔帖式历国史院侍读。顺
  • 黑林鸽黑林鸽(学名:Columba janthina)为鸠鸽科鸽属的鸟类,俗名黑果鸽、鸦鸽。分布于日本南部岛屿、南抵琉球群岛、硫黄群岛、小笠原群岛以及中国大陆的山东等地,多栖息于多林小岛上的稠
  • 萨克拉门托轻轨萨克拉门托轻轨(英语:Sacramento RT Light Rail),全称是萨克拉门托地区运输局轻轨(Sacramento Regional Transit Light Rail) ,是在美国加利福利亚州萨克拉门托地区由萨克拉门托地
  • 阿里·卡里米阿里·卡里米(波斯语:محمد علی کریمی‎,英译:Mohammad Ali Karimi Pashaki,1978年11月8日-),伊朗足球员,现时效力卡塔尔体育会(英语:Qatar Sports Club S.C.)。卡里米是2005
  • 普尔加奥恩普尔加奥恩(Pulgaon),是印度马哈拉施特拉邦Wardha县的一个城镇。总人口36506(2001年)。该地2001年总人口36506人,其中男性18942人,女性17564人;0—6岁人口3689人,其中男1928人,女1761
  • 残花泪 (1919年电影)《残花泪》(英语:)是一部1919年的美国无声爱情电影,由大卫·格里菲斯导演,莉莲·吉许、理查德·巴塞尔梅斯和唐纳德·克里斯普(英语:Donald Crisp)主演。本片是联艺公司发行的第一部
  • 爱德华·巴格诺尔·波尔顿爱德华·巴格诺尔·波尔顿(Sir Edward Bagnall Poulton)FRS(1856年1月27日-1943年11月20日)是一位英国进化生物学家、自然选择学说的终生支持者。1893年他成为了牛津大学动物学希