语音加强

✍ dations ◷ 2025-07-01 10:07:54 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 星体天体(astronomical object,也称为celestial object)是在可观测宇宙中,经由科学确认其存在的物体、或是结构。天体可能像恒星、行星、彗星等结合较紧密的星体或类星体,也可能是指
  • 三方三方晶系是结晶学中七种晶体的其中一种。以晶体的一个三次对称轴或者三次倒转轴为c轴,三个水平轴正端120°且与c轴正交。通常采用四轴定向。α=β=90°;γ=120°;a=b≠c。但是
  • span class=nowrapPaClsub4/sub/span四氯化镤是无机化合物,是一种镤卤化物,由镤和氯组成,具有放射性,化学式为PaCl4,是黄绿色晶体,为四方晶系结构的晶体。其他镤卤化物有:五氯化镤、四溴化镤、五溴化镤、五碘化镤、四
  • 罗斯贝波天气图上的对流层中上层呈波状形式的气压场或流场中,在北半球会有3~5个波,这种波即大气长波。由于其水平尺度与地球半径相当,也称行星波(planetary waves)。1939年,卡尔-古斯塔夫
  • Acadian Orogeny阿卡迪亚造山运动(Acadian orogeny)是中古生代泥盆纪时期的构造运动,影响范围涉及阿巴拉契亚地槽(Appalachian Geosyncline)北段,包括今纽约至纽芬兰地区。它的肇因被认为是小型大
  • 张惟元张惟元(?-?),明朝末年起事领袖。崇祯元年(1628年),他在广州聚众反明,攻打罗冈、程乡和福建上杭、武平、清流,称王,改元永兴。
  • 美国联盟美国联盟(American League),简称美联,是在美国和加拿大境内组成美国职棒大联盟的两个联盟之一。美联是从最初一个叫做西部联盟的青年联盟演变而成。这个组织在1899年10月11日正
  • 西北领地印章西北领地(英语:Northwest Territory),亦称为俄亥俄河西北领地(Territory North West of the River Ohio),是美国建国初期的一块联邦政府领地。1787年7月13日为美国国会前身的大
  • 卡利甘杰乌帕齐拉 (拉尔莫尼哈德县)卡利甘杰(孟加拉语:কালিগঞ্জ,Kaliganj)是孟加拉国的一个乌帕齐拉,位于朗布尔专区的拉尔莫尼哈德县。卡利甘杰乌帕齐拉共有户数35459户。据1991年孟加拉国人口普查(英语:199
  • 台湾知名客家人列表 本表所列出的是“历史上和台湾发生联系的著名人士”,并不限于是在台湾出生或台湾籍的人。彭明辉 圭(Guei/Gui)