语音加强

✍ dations ◷ 2025-10-08 19:05:45 #语音识别

一个语音辨识系统主要分成训练(training)和测试(testing)。训练多半在实验室把较为理想的训练语料(training data)训练成一个声学模型(acoustic model),而在实际应用上,测试则不像训练一样是在一个理想的环境进行,因此造成与训练出来的模型无法吻合的很好,导致辨识准确度下降。
也因为上述原因,在进行辨识前进行语音加强则成为一个很重要的步骤,也就是希望能够在辨识前,尽量减少环境噪声对语音信号的影响,进而提升辨识率。

依据通道的多寡可分为两类:单通道语音加强算法、多通道语音加强算法

语音讯号的取得由一个通道而来,例如家用电话、手机、录音档,属于这类的算法有

使用这个方法的一些假设:

这个方法的概念就是以下的式子,X为欲得到的加强语音,Y为收到包含噪声的语音讯号,R为噪声
X ( ω ) 2 = { Y ( ω ) 2 R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > 0 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\\0,&{\mbox{otherwise }}\end{cases}}}
在实做上R可借由估计未讲话时的讯号取得,但由于 Y ( ω ) 2 R ( ω ) 2 > 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>0\end{smallmatrix}}} 的条件,使得所有 Y ( ω ) 2 R ( ω ) 2 < 0 {\displaystyle {\begin{smallmatrix}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}<0\end{smallmatrix}}} 的估计都被设为0,这显然是不合理的,因此造成加强的语音讯号听起来会在一些时候有些不舒服,这个问题称为musical noise

这个方法的产生主要就是为了解决由Spectral Subtraction Process所产生的musical noise的问题,作法是将模型修正为
X ( ω ) 2 = { Y ( ω ) 2 α R ( ω ) 2 , if  Y ( ω ) 2 R ( ω ) 2 > β R ( ω ) 2 0 , otherwise  {\displaystyle \left\|X\left({\boldsymbol {\omega }}\right)\right\|^{2}={\begin{cases}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-{\boldsymbol {\alpha }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2},&{\mbox{if }}\left\|Y\left({\boldsymbol {\omega }}\right)\right\|^{2}-\left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}>{\boldsymbol {\beta }}\cdot \left\|R\left({\boldsymbol {\omega }}\right)\right\|^{2}\\0,&{\mbox{otherwise }}\end{cases}}}

这个方法主要是将两种方法给结合
(i) oversubtraction model
(ii) 扣除噪声的过程是非线性的,在高SNR的时候扣除的较多,而低SNR的时候则扣除较少。

语音讯号的取得由两个或以上通道而来,由于讯号的取得较多元,提供更多语音加强的可能性,属于这类的算法有

需要有两个输入讯号
(i)被噪声污染的主要讯号
(ii)跟主要讯号中噪声有关(correlated)
这个方法是把参考噪声经过一个滤波器(希望滤波出来的结果接近主要讯号中的噪声),再把这个讯号从主要讯号中扣除,来估计加强的语音讯号。然而其实在这个过程中无法事先知道主要讯号的噪声与参考讯号噪声的关系,因此这个滤波器的设计是借由adaptive algorithm调整滤波器参数来逼近主要讯号的噪声,进而达到语音加强的效果。

使用麦克风阵列(多个感测器)来达到这个效果,由于各个麦克风所接收到的讯号方向不尽相同,导致每个接收讯号相位差不同,可借由对准项位的方法(phase alignment)加强语音讯号。

相关

  • 已测序真核生物基因组列表已测序真核生物基因组列表包括所有已知的,可以公开获取已组装、注释和发表的细胞核和细胞器基因组序列的真核生物;基因组草图不包括在内,只有细胞器序列的物种也不包括。1977年
  • 第19大出口国这是各国出口额列表,数据基于世界贸易组织的全球商品出口数据,采用FOB统计各国及地区货物出口额。
  • 苏联最高苏维埃主席团苏联主题苏联最高苏维埃主席团是前苏联最高权力机关苏联最高苏维埃的常设机构,在最高苏维埃休会期间执行其职权。主席团首脑为“苏联最高苏维埃主席团主席”,同时也是苏联的国
  • 高桥浩佑高桥浩佑(1968年10月13日-),日本记者。神奈川县川崎市出身。庆应义塾大学经济学专业毕业,后到哥伦比亚大学攻读新闻学和国际关系学,取得两个硕士学位。汤森路透东京办公室担任高
  • 生态工业园生态工业园区是一种新兴的工业建设和发展方式。生态工业园区是依据循环经济理念。工业生态学原理和清洁生产要求建立起来的一种新型工业园区,是在区域层面上实现产业生态学目
  • 阿萨帕斯卡语德内语支或称阿萨巴斯卡语支(Athabaskan、Athabascan、Dene、Athapascan、Athapaskan)是北美大陆一系列原住民语言的统称,阿萨巴斯卡语系主语言与其他一些语言被归入纳-德内语
  • 2019冠状病毒病吉林省疫情2019冠状病毒病吉林省疫情,介绍在2019冠状病毒病疫情中,在中华人民共和国吉林省发生的情况。截至2020年5月1日24时,吉林省全省有确诊病例112例,其中境外输入19例,治愈出院102例,死
  • 自动机自动机(英语:Automaton,复数:Automata,又称自动机器、自动机械),是指非电源供应,以发条装置作为动力来源,使自己运作的机器;自动机是必须先手动上紧发条,发条带动机器内部的齿轮及随动
  • 西摩·马丁·利普塞特西摩·马丁·利普塞特(Seymour Martin Lipset,1922年3月18日-2006年12月31日),美国著名比较社会学家。代表作《政治人:政治的社会基础》(Political Man:The Social Bases of Politic
  • 林彪 (1889年出生)林彪(1889年-20世纪),字礼源,广东香山人,中国近代政治人物。林彪早年就读于上海圣约翰大学。1908年赴美国威斯康辛大学学习政治学。1912年获学士学位。次年又赴德国留学,入读巴维利