语音加强

✍ dations ◷ 2025-04-02 10:57:25 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 课税关税是指商品进口时,当地政府依规定对进口商品课征的税金。依照收税的方式,一般分为三种:进口关税、出口关税、特别关税。 进口关税是指对进口货物和物品征收的税,也是一般人最
  • 雪纺雪纺(法语:Chiffon),采用涤纶或者真丝为原料,经左右加捻加工而成。雪纺为法语单词“Chiffon”的音译。雪纺质地柔软、轻薄透明,手感滑爽富有弹性,外观清淡爽洁,具有良好的透气性和悬
  • 水原华城连环杀人事件华城连环杀人案(朝鲜语:화성연쇄살인사건/華城連鎖殺人事件 Hwaseong yeonswae sal in sa geon)指的是1986年9月15日-1991年4月3日,发生在韩国京畿道华城郡(现华城市)附近村庄的的
  • 黄浦江死猪漂流事件黄浦江死猪漂流事件是指自2013年3月初起,在黄浦江上海松江段,打捞起数千头高度腐败的死猪的水污染事件。3月初,中国大陆各大网站开始关注此事件,3月9日的新闻称,死猪并未影响到当
  • 约翰·马克斯维尔·库切约翰·马克斯维尔·库切(英语:John Maxwell Coetzee,或者简写为J. M. Coetzee,1940年2月9日-),又译柯慈,南非当代著名小说家,诺贝尔文学奖2003年的得主, 1987年耶路撒冷奖得奖者,使用
  • 切斯特白猪切斯特白猪是猪的品种之一。目前数量已经十分有限。切斯特白猪的母猪高产,母性很好。在杂交体系中,切斯特白猪经常被用作母系,尽管其在数量上已逐渐失去其重要性。此品种起源于
  • 威廉·戈德温威廉·戈德温(William Godwin,1756年3月3日-1836年4月7日),英国记者、哲学家、小说家。被认为是效益主义的最早解释者之一和无政府主义的提出者之一。 以其同一年内(1793年)发表的
  • 韦部韦部,为汉字索引中的部首之一,康熙字典214个部首中的第一百七十八个(九划的则为第三个)。就正体中文中,韦部归于九划部首,而简体中文则归四划。韦部只以左方为部字。且无其他部首
  • 郑姓郑姓为一个汉姓,在中国《百家姓》中排第7位。按照人数来算,现今在中国大陆排名第23位,在台湾排名第12位。目前已知的郑姓家谱,明代以前的都未能保存下来,能够见到的多是清代和民
  • 对甲氧基苯乙酮对甲氧基苯乙酮是一种芳香化合物,带有甜味、果香、坚果味及类似香草的香味。此外,对甲氧基苯乙酮有时闻起来像是黄油或焦糖。该化合物被作为香烟添加剂、香料及添加在食品调味