语音加强

✍ dations ◷ 2025-09-18 10:04:26 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 艾蜜莉·华森艾米丽·沃森(英语:Emily Watson,1967年1月14日-),英格兰女演员。她的首部电影作品是由拉斯·冯·提尔执导的《破浪而出》(1996)而获得欧洲电影奖、纽约影评人协会奖、国家影评人
  • 电介质介电质(英语:dielectric)是一种可被电极化的绝缘体。假设将介电质置入外电场,则束缚于其原子或分子的束缚电荷不会流过介电质,只会从原本位置移动微小距离,即正电荷朝着电场方向稍
  • 克孜勒克孜勒(俄语:Кызы́л,图瓦语:Кызыл,直译:红色)是俄罗斯图瓦共和国首府。位于大小叶尼塞河汇合处。人口109918(2010年)。建于1914年,命名为别洛沙尔斯克(俄语:Белоца́р
  • 振元龙振元龙属(属名:Zhenyuanlong)是生存于白垩纪前期的中小型驰龙科恐龙,化石发现于中国辽宁西部的义县组地层,年代约相当于1亿2500万年前的阿普第阶。振元龙是热河生物群的有羽毛恐
  • 资兴市资兴市位于中国湖南省南部,为郴州代管县级市;1984年12月撤县设市。全境地处耒水上游,罗霄山脉南端;辖域总面积2,746.79平方公里,位居全省县市的第20位;常住人口337,495人(2010普查),
  • 广岛原爆广岛市原子弹爆炸事件,是在第二次世界大战末期,由美国总统杜鲁门下令发动,美国陆军航空军于1945年8月6日上午8时15分(日本时间)在日本广岛市投下原子弹的历史事件,这是人类历史上
  • 2013年海湾国家杯2013年海湾国家杯(阿拉伯语:كأس الخليج‎)于2013年1月5日至18日于巴林举行,是第 21 届海湾国家杯赛事。巴林 v 阿曼卡塔尔 v 阿联酋卡塔尔 v 阿曼巴林 v 阿联
  • 四川省乡级以上行政区列表中华人民共和国四川省乡级以上行政区包括中华人民共和国四川省的地级行政区、县级行政区和乡级行政区。至2018年,按地级行政区域划分,四川省辖18个地级市和3个自治州;按县级行
  • 胡得恺胡得恺(越南语:Hồ Đắc Khải/.mw-parser-output .han-nom{font-family:"Nom Na Tong","Han-Nom Gothic","Han-Nom Ming","HAN NOM A","HAN NOM B","Ming-Lt-HKSCS-UNI-H","M
  • 南阳小檗南阳小檗(学名:),为小檗科小檗属下的一个植物种。