语音加强

✍ dations ◷ 2025-04-04 11:26:59 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 多肽肽(英语:peptide,来自希腊文的“消化”),旧称胜,即胜肽,又称缩氨酸,是天然存在的小生物分子,介于氨基酸和蛋白质之间的物质。由于氨基酸的分子最小,蛋白质最大,而它们则是氨基酸单体组
  • 领域领域,指某一专业或事物方面范围的涵盖,也可以指以下各类资料:
  • 常羲常羲,《山海经·大荒西经》中天帝帝俊之妻,传说生了十二个月亮,此即为一年十二个月之由来。王国维则指出其为帝喾之妻娵訾氏常仪(又称尚仪、常宜),是帝挚之母。清代毕沅根据音韵学
  • 父权规范异性恋霸权是一种以异性恋为中心的观念,这种观念将异性恋视为自然倾向,并将异性结合视为理所当然的义务,因此,所有非异性恋的都被认为是异常的或是负面的。这种观念的常见例子包
  • 土库曼人土库曼斯坦:4,150,000  伊拉克:1,500,000  伊朗:2,000,000  阿富汗:500,000土库曼族(土库曼语:Türkmenler Түркменлер)是一个中亚突厥语民族,土库曼斯坦主要民族,也
  • 洛斯加托斯乐队洛思加图斯(Los Gatos,座标37°14′10″N 121°57′42″W / 37.23611°N 121.96167°W / 37.23611; -121.96167 (37.236044, −121.961768).),位于美国加利福尼亚州圣克拉拉县内
  • 束棒束棒(英语:fasces),音译“法西斯”,在古罗马是权力和威信的标志。束棒是一根被多根绑在一起的木棍围绕的斧头。在官方场合下高级官员的卫兵在他的前面持束棒来代表到来的官员的级
  • 中华人民共和国国家旅游局1999年规定:印章直径4.5厘米,中央刊国徽,由国务院制发。中华人民共和国国家旅游局(官方英语译名:China National Tourism Administration,缩写作CNTA),是已撤销的中华人民共和国国
  • 浊颚龈擦音浊颚龈擦音或浊拱龈后擦音(voiced palato-alveolar fricative 或 voiced domed postalveolar fricative)属齿龈后音,表示为⟨ʒ⟩,是⟨ʃ⟩相应的浊音。是法语、葡萄牙语、罗马
  • 石川高信石川高信,出生于1495年(明应4年),卒年则有多说(1571年or1581年),是日本战国时代的陆奥国武将。儿子是被喻为南部氏中兴之祖的第26代当主南部信直。1495年,诞生于三户城,父亲是南部家