IT教程 ·

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

详解Net Core Web Api项目与在NginX下发布

 

择要

在语音加强运用中,麦克风阵列后置滤波可进一步削减波束构成器输出处的噪声身分。在麦克风阵列组织中,近来提出的通用传递函数广义旁瓣消弭器(TF-GSC)在定向噪声场中显示出使人印象深入的降噪才能,同时仍坚持低语音失真。然则,在散布噪声场中,可取得的降噪效果不显著。当噪声信号不稳固时,机能甚至会进一步下落。 在本文中,我们提出了三种后置滤波要领,以改良麦克风阵列的机能。 个中两个基于单通道语音加强器,并应用了近来提出的与波束构成器输出串连的算法。 第三个是多通道语音加强器,它应用TF-GSC组织中构建的纯噪声组件。 这项事情集主要对后置滤波组织的评价。 做了大批试验研讨包括对种种噪声场的客观评价和主观评价,证明了与单通道手艺比拟,多通道后置滤波的上风。

关键词:广义旁瓣抵消器(GSC),麦克风阵列,非安稳性,后置滤波,语音加强

1  弁言

近来,Gannot等人提出了对Griffiths和Jim[1]典范广义旁瓣抵消弭器(GSC)的扩大,它处置惩罚恣意Transfer Functions(传递函数,TFs)[2]-[3]。这个算法叫做TF-GSCTF-GSC虽然在定向噪声状况下取得了优越的效果,但在非定向噪声环境(如散布噪声状况[4][5])中,阵列的机能有显著的下落。别的,由于TF-GSC算法应用了语音的非安稳性和噪声的安稳性,因而在非安稳噪声环境下,机能会显著下落

因而,在非定向和非安稳噪声环境中运用后置滤波来进步波束构成机能。Zelinski[6]提出了基于Wiener滤波器的简朴耽误和和波束构成器的后置滤波要领。厥后,后置滤波被合并到Griffiths和Jim-GSC波束构成器中[7]-[8]。其作者发起一连运用两个后置滤波器。第一个事情在牢固波束构成器分支,第二个运用GSC输出。在定向噪声源和散布噪声场的低频段,各传感器的噪声重量之间存在相干性。虽然在这类状况下第一个后置滤波器变得无用,但后者抑止了噪声。经由历程运用几个谐波嵌套的子阵列连系Wiener后置滤波器,可以轻微减轻散布噪声场中的低频段相干性[9]。 Marro等人[10]对该组织举行了完整的剖析。

注重,波束构成器的输出大概被视为包括语音信号并被(残留)噪声信号污染的单个通道。本研讨发起运用最先进的单麦克风语音加强算法。在[11]中,发起运用谱减法算法[12]。

本文主要孝敬,提出并评价了别的两种当代算法的运用。第一个是mix -maximum (MIXMAX)算法[13]-[14]。第二种是最优修正的对数谱 振幅预计器(OM-LSA)[15]。但是,假如噪声信号是散布和非安稳的,单麦克风后置滤波器不能完整抑止它。

Cohen和Berdugo [16]起首提出了一种处置惩罚非安稳噪声源的要领。 这类后置滤波要领与典范的Griffiths和Jim GSC波束构成器连系运用,而且应用了波束构成器的输出和由壅塞分支发生的噪声参考信号,从而构成了多麦克风后置滤波。

本文对该要领举行了扩大,并将其运用于Gannot等人提出的TF-GSC波束构成器中[2]。TF-GSC的上风在于 纵然在高度反响的环境中,它也可以将本身指导至所需的语音信号,并消弭了所需的信号走漏到噪声参考分支中。 新的多麦克风后置滤波器要领在种种噪声场中举行了评价,并与单个麦克风后置滤波器举行了比较。

第二节引见了问题的状况。第三节扼要回忆TF-GSC。第四节引见了所提出的多麦克风后置滤波器。第五节对所提出的要领举行了评价,并与单麦克风后置滤波器举行了比较。第六节得出了一些结论。

2  问题表述

在喧闹和混响环境中,传感器阵列接收到的信号由三部份构成。

  1. 语音信号(最初发起运用TF-GSC来加强恣意非安稳信号。在此孝敬中,我们将议论仅限于语音信号,由于后置滤波依赖于特定的语音特征)
  2. 安稳滋扰信号
  3. 非安稳(暂态)噪声重量

我们的目的是依据接收到的信号重修语音组件。因而,接收到的信号由

$$公式1:z_{m}(t)=a_{m}(t) * s(t)+n_{m}^{s}(t)+n_{m}^{t}(t) ; quad m=1, ldots, M$$

个中$z_m(t)$是第$m$个传感器信号,$s(t)$是所需的语音源,示意卷积运算。$n_m^s(t)$和$n_m^t(t)$离别是稳态和瞬时噪声重量。注重,这两个噪声重量由相干(定向)噪声重量和散布噪声重量构成。$a_m(t)$是从语音源到第$m$个传感器的第$m$个时变声学传递函数(ATF)。应用短时候频次剖析和假定时稳固ATFs,我们在时频域中具有一个向量情势

$$公式2:Zleft(t, e^{j omega}right)=Aleft(e^{j omega}right) Sleft(t, e^{j omega}right)+N_{s}left(t, e^{j omega}right)+N_{t}left(t, e^{j omega}right)$$

个中

$$begin{aligned} Z^{T}left(t, e^{j omega}right)=left[Z_{1}left(t, e^{j omega}right)right.&left.Z_{2}left(t, e^{j omega}right) quad cdots quad Z_{M}left(t, rho^{j omega}right)right]
A^{T}left(e^{j omega}right)=left[A_{1}left(e^{j omega}right)right.& A_{2}left(e^{j omega}right) cdots left.A_{M}left(e^{j omega}right)right]
N_{s}^{T}left(t, e^{j omega}right)=left[N_{1}^{s}left(t, e^{j omega}right)right.&left.N_{2}^{s}left(t, e^{j omega}right) quad cdots quad N_{M}^{s}left(t, e^{j omega}right)right]
N_{t}^{T}left(t, e^{j omega}right)=left[N_{1}^{t}left(t, e^{j omega}right)right.&left.N_{2}^{t}left(t, e^{j omega}right) quad cdots quad N_{M}^{t}left(t, e^{j omega}right)right] end{aligned}$$

和$Z_{m}left(t, e^{j omega}right), Sleft(t, e^{j omega}right), N_{m}^{s}left(t, e^{j omega}right), text { and } N_{m}^{t}left(t, e^{j omega}right)$是各自信号的短时傅里叶变换(STFT)。$A_m(e^{jw})$是第m个传感器ATF的频次相应,假定在剖析时期是时稳固的。

3  TF-GSC算法综述

Gannot等人提出了一种基于希冀信号非安稳性的信号加强要领[2]-[3]。M个麦克风信号经由历程M个滤波器举行滤波,$W_m^*(t,e^{jw});m=1,...,M$(* 示意共轭),并将其输出相加构成波束构成器输出

$$公式3:Yleft(t, e^{j omega}right)=W^{dagger}left(t, e^{j omega}right) Zleft(t, e^{j omega}right)$$

个中$dagger$示意共轭转置,$W(t,e^{jw})$由下给出

$$boldsymbol{W}^{T}left(t, e^{j omega}right)=left[W_{1}left(t, e^{j omega}right) quad W_{2}left(t, e^{j omega}right) quad cdots quad W_{M}left(t, e^{j omega}right)right]$$

$W(t,e^{jw})$是经由历程最小化输出功率来肯定的,该输出的信号部份是希冀信号$S(t,e^{jw})$,直到某个预先指定的滤波器$F^*(t,e^{jw})$(一般是简朴的耽误)。经由历程构建如图1所示的GSC组织,可以有效地完成这类最小化。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第1张

图1 通用TFs案例的GSC解决方案(TF-GSC)

  GSC解决方案由三部份构成:由$W_0^{dagger}$完成牢固波束构成器(FBF),由$^{dagger}(e^{jw})$完成块矩阵(BM),其组织噪声参考信号(包括静态和瞬态重量)和由滤波器$G(t,e^{jw})$完成的多通道噪声消除器(NC)。调解滤波器$G(t,e^{jw})$使输出$Y(t,e^{jw})$功率最小化,与典范的Widrow问题[17]完整雷同。为了稳固更新算法,滤波器一般被束缚在FIR组织上。

虽然对ATFs $A(e^{jw})$的正确相识会发生所需语音信号的无失真重修,然则已证明,仅ATFs比$H(e^{jw})$在实践中就充足了。对ATFs ratio(比率)运用以下定义

$$Hleft(e^{j omega}right)=frac{Aleft(e^{j omega}right)}{A_{1}left(e^{j omega}right)}=left[begin{array}{ccc}{1} & {frac{A_{2}left(t, e^{j omega}right)}{A_{1}left(t, e^{j omega}right)}} & {cdots} & {frac{A_{M}left(t, e^{j omega}right)}{A_{1}left(t, e^{j omega}right)}}end{array}right]$$

suboptimal(次优)的FBF块变成$W_0(t,e^{jw})=(frac{H(e^{jw})}{||H(e^{jw})||^2})F(e^{jw})$。块矩阵$H(e^{jw})$也可以经由历程零丁运用ATFs比率来肯定[2]。图2中总结了该算法,个中,假定ATFs比率向量是已知的。但是,在实践中$H(e^{jw})$是未知的,应当预计。我们运用一种基于希冀信号非安稳性的预计要领。剖析间隔被分红多个帧,如许希冀的信号在每一个帧中可以被认为是安稳的(语音信号的短时安稳性),而$H_m(e^{jw})$在全部剖析间隔中依然被认为是牢固的。

1、TF-s ratios(比值):$boldsymbol{H}left(e^{j omega}right)=frac{boldsymbol{A}left(e^{j omega}right)}{A_{1}left(e^{j omega}right)}$

2、组织分块矩阵,$mathcal{H}^{dagger}left(e^{j omega}right) boldsymbol{A}left(e^{j omega}right)=0$

3、牢固波束构成器 (FBF)$mathcal{H}^{dagger}left(e^{j omega}right) boldsymbol{A}left(e^{j omega}right)=0$

FBF 输出$Y_{mathrm{FBF}}left(t, e^{j omega}right)=boldsymbol{W}_{0}^{dagger}left(e^{j omega}right) boldsymbol{Z}left(t, e^{j omega}right)$

4、噪声参考信号$begin{array}{l}{Uleft(t, e^{j omega}right)=mathcal{H}^{dagger}left(e^{j omega}right) Zleft(t, e^{j omega}right)=mathcal{H}^{dagger}left(e^{j omega}right) boldsymbol{N}left(t, e^{j omega}right)} {left(text { or } U_{m}left(e^{j omega}right)=Z_{m}left(t, e^{j omega}right)-frac{A_{m}left(e^{j omega}right)}{A_{1}left(e^{j omega}right)} Z_{1}left(t, e^{j omega}right) ; m=2, ldots, Mright)}end{array}$

5、输出信号$Yleft(t, e^{j omega}right)=Y_{mathrm{FBF}}left(t, e^{j omega}right)-G^{dagger}left(t, e^{j omega}right) boldsymbol{U}left(t, e^{j omega}right)$

6、过滤器更新,关于$m=1,....,M-1$

$${tilde G_m}left( {t + 1,{e^{jomega }}} right) = {G_m}left( {t,{e^{jomega }}} right) + mu frac{{{U_m}left( {t,{e^{jomega }}} right){Y^*}left( {t,{e^{jomega }}} right)}}{{{P_{{rm{est}}}}left( {t,{e^{jomega }}} right)}};$$

$${G_m}left( {t + 1,{e^{jomega }}} right)quad {hat G_m}left( {t + 1,{e^{jomega }}} right)$$

$${P_{{rm{est}}}}left( {t,{e^{jomega }}} right) = rho {P_{{rm{est}}}}left( {t - 1,{e^{jomega }}} right) + (1 - rho )sumlimits_m {{{left| {{Z_m}left( {t,{e^{jomega }}} right)} right|}^2}} $$

7、依据堆叠和保存要领[18],只保存非锯齿样本。

图2 TF-GSC算法综述

定义$Phi_{z_{i i} z_{j}}^{(k)}left(e^{j omega}right)$为第$k$帧$(k=1,...K)$时期$z_i$和$z_j$(离别为第$i$和$j$次噪声信号视察)之间的交织PSD(功率谱密度)。进一步定义$Phi_{u_mz_1}(e^{j omega})$为$u_m(t)$(第$m$个噪声参考信号)和$z_1(t)$之间的交织PSD。让$hat{Phi}_{Z_{i i} j_{j}}^{(k)}left(e^{j omega}right)$和$hat{Phi}^{(k)}_{u_mz_1}left(e^{j omega}right)$示意相应的预计。将最小二乘法运用于以下超定方程组,取得$H_m(e^{jw})$的无偏预计

$$公式4:begin{aligned} &left[begin{array}{c}{hat{Phi}_{z_{m} z_{1}}^{(1)}left(e^{j omega}right)} {hat{Phi}_{z_{m} z_{1}}^{(2)}left(e^{j omega}right)} {vdots} {hat{Phi}_{hat{z}_{m} tilde{z}_{1}}^{(K)}left(e^{j omega}right)}end{array}right]=left[begin{array}{cc}{hat{Phi}_{z_{1} z_{1}}^{(1)}left(e^{j omega}right)} & {1} {hat{Phi}_{z_{1} z_{1}}^{(2)}left(e^{j omega}right)} & {1} {vdots} & {} {hat{Phi}_{z_{1} z_{1}}^{(K)}left(e^{j omega}right)} & {1}end{array}right] timesleft[begin{array}{c}{H_{m}left(e^{j omega}right)} {Phi_{u_{m} z_{1}}left(e^{j omega}right)}end{array}right]+left[begin{array}{c}{varepsilon_{m}^{(1)}left(e^{j omega}right)} {varepsilon_{m}^{(2)}left(e^{j omega}right)} {vdots} {varepsilon_{m}^{(K)}left(e^{j omega}right)}end{array}right] end{aligned}$$

个中,对每一个麦克风信号$(m=2,...,M)$和频次指数$(e^{jw})$运用一组零丁的方程,K是剖析间隔内的帧数。要最小化的误差项由$varepsilon _m^{(k)}(e^{jw})=Phi_{u_mz_1}(e^{jw})-hat{Phi}_{u_mz_1}(e^{jw});k=1,...,K.$定义

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第2张

 图3 多麦克风后置滤波的框图

4  多麦克风后置滤波器

在这一部份中,我们议论了在波束构成器输出端预计噪声PSD的问题,并提出了多麦克风后置滤波手艺。图3形貌了所提出的后置滤波要领框图。在波束构成器输出端,应用波束构成器输出端的瞬时功率Y与参考信号${U_k}_{k=2}^M$处的瞬时功率之比,检测出所需的语音重量,然后导出先验语音缺失几率的预计$hat{q}(t,e^{jw})$,基于高斯统计模子预计语音存在几率$p(t,e^{jw})$。然后,经由历程递归腻滑波束构成器输出的周期图来预计噪声PSD,个中语音存在几率掌握时变频次相干的腻滑参数,以防备噪声预计由于语音身分而增添。末了,经由历程运用OM-LSA增益函数完成波束构成器输出的频谱加强,该增益函数最小化了log- spectrum(对数谱)[15]的均方误差。

设$S$为功率谱域中的smoothing operator(腻滑算子),定义为

$$公式5:begin{aligned} mathcal{S}Yleft(t, e^{j omega}right) &=alpha_{s} cdot mathcal{S}Yleft(t-1, e^{j omega}right)+left(1-alpha_{s}right) sum_{omega^{prime}=-Omega}^{Omega} bleft(e^{j omega^{prime}}right)left|Yleft(t, e^{jleft(omega-omega^{prime}right)}right)right|^{2} end{aligned}$$

$$公式6:psi (t,e^{jw})=frac{max {{SY(t,e^{jw})-MY(t,e^{jw}),0}}}{maax{SU_m(t,e^{jw})-MU_m(t,e^{jw})}_{m=2}^M,varepsilon MY(t,e^{jw})}$$

个中$alpha_s(0leq alpha_sleq 1)$是时候腻滑的忘记因子,$b$是肯定频次腻滑次序的归一化窗口函数$sum_{w^{prime}=-Omega}^{Omega} bleft(e^{j omega^{prime}}right)=1$($2Omega $是频次带宽)。设$M$示意背景伪安稳噪声PSD的最小掌握递推均匀(MCRA)预计量[19],[20]。然后,我们定义一个瞬态波束参考比(TBRR)[16],如本页底部所示,个中是一个常数(一般$varepsilon =0.01$),防备在参考信号处没有瞬态功率的状况下分母减小到零。这给出了波束构成器输出处的瞬态功率与参考信号处的瞬态功率之间的比率,这表明瞬态重量更大概来自语音或环境噪声。假定波束构成器的转向误差相对较低,而且滋扰噪声与希冀的语音不相干,假如瞬态与希冀的源相干,则TBRR一般较高[21]。关于所需的源部件,波束构成器输出的瞬态功率显著大于参考信号的瞬态功率。因而,(6)中的名物比分母大得多。另一方面,关于滋扰瞬态,TBRR小于1,由于最少一个参考信号的瞬态功率大于波束构成器输出的瞬态功率。经由历程修正基于TBRR的语音存在几率,我们可以发生一种非安稳噪声抑止的两重机制:起首,经由历程噪声预计的疾速更新(噪声预计的增添实质上致使较低的谱增益)。其次,经由历程谱增益盘算(谱增益被语音存在几率指数修正[15])。

设$gamma_{s}left(t, e^{j omega}right) triangleqleft|Yleft(t, e^{j omega}right)right|^{2} / mathcal{M} Yleft(t, e^{j omega}right)$示意波束构成器输出相干于伪安稳噪声的后验信噪比。那末,只要当$gamma_{s}left(t, e^{j omega}right)$和$psi(t,e^{jw})$都很大时,才有大概涌现语音。$gamma _s(t,e^{jw})$的大值意味着波束构成器输出包括一个瞬态,而TBRR指导该瞬态是希冀的照样滋扰的。因而

$$公式7:hat{q}left(t, e^{j omega}right)=left{begin{array}{ll}{1,} & {text { 假如} gamma_{s}left(t, e^{j omega}right) leq gamma_{text {low }}} {text { 或许} psileft(t, e^{j omega}right) leq psi_{text {low }}}
{max left{frac{gamma_{text {high }-gamma_{s}(t, e)^{j}}}{gamma_{text {high }-gamma_{text {low }}}}right.} {frac{psi_{text {ligh }}-psileft(t, e^{j omega}right)}{gamma_{text {low }}}} {text { , }}{ frac{psi_{text {high }}-psi_{text {low }}}{psi_{text {high }}-psi_{text {low }}}} & {, 0}, text { 其他}}end{array}right.$$

可以作为一个启发式表达式来预计先验语音缺失几率。它假定$gamma _s(t,e^{jw})leq gamma _{low}$和$psi(t,e^{jw})leq psi _{low}$都不存在语音。假定$gamma _s(t,e^{jw})leq gamma _{high}$和$psi(t,e^{jw})leq psi _{high}$都存在语音。常数$psi _{low}$和$psi _{high}$示意语音运动时在$psi(t,e^{jw})$的不肯定性,$gamma _{low}$和$gamma _{high}$示意与$gamma _s(t,e^{jw})$相干的不肯定性。在$gamma _sin [gamma _{low},gamma _{high}]$和$psi in[psi_{low},psi_{high}]$地区,我们假定$hat{q}(t,e^{jw})$是$gamma _s(t,e^{e^{jw}})$和$psi(t,e^{jw})$的润滑双线性函数。

基于高斯统计模子[22],语音persence(涌现)几率由

$$公式8:pleft(t, e^{j omega}right)=left{1+frac{qleft(t, e^{j omega}right)}{1-qleft(t, e^{j omega}right)}left(1+xileft(t, e^{j omega}right)right) exp left(-vleft(t, e^{j omega}right)right)right}^{-1}$$

个中$xileft(t, e^{j omega}right) triangleq Eleft{left|Sleft(t, e^{j omega}right)right|^{2}right} / lambdaleft(t, e^{j omega}right)$为先验SNR,$lambda (t,e^{jw})$为波束构成器输出处的噪声PSD(包括安稳和非安稳噪声重量),$xileft(t, e^{j omega}right) triangleq frac{gamma (t,e^{jw})xi (t,e^{jw})}{(1+xi(t,e^{jw}))}$$xileft(t, e^{j omega}right) triangleq frac{|Y(t,e^{jw})|^2}{lambda (t,e^{jw})}$为后验总SNR。先验信噪比的预计采纳decision-directed(决议计划导向)要领(这是以Ephraim和Malah的决议计划导向预计的一个革新版本)[15]

$$公式9:begin{aligned} hat{xi}left(t, e^{j omega}right)=alpha G_{H_{1}}^{2}left(t-1, e^{j omega}right) gammaleft(t-1, e^{j omega}right) +(1-alpha) max left{gammaleft(t, e^{j omega}right)-1,0right} end{aligned}$$

个中$alpha$是掌握噪声下降和信号失真之间的衡量的加权因子,以及

$$公式10:G_{H_{1}}left(t, e^{j omega}right) triangleq frac{xileft(t, e^{j omega}right)}{1+xileft(t, e^{j omega}right)} exp left(frac{1}{2} int_{vleft(t, e^{j omega}right)}^{infty} frac{e^{-x}}{x} d xright)$$

是语音肯定存在时对数谱幅度(LSA)预计器的谱增益函数[23]。

波束构成器输出处的噪声预计是经由历程递归均匀噪声丈量的过去谱功率值来取得的。语音存在几率掌握递归均匀的速度。具体来说,噪声PSD预计由

$$公式11:begin{aligned} hat{lambda}left(t+1, e^{j omega}right)=tilde{alpha}_{lambda}(&left.t, e^{j omega}right) hat{lambda}left(t, e^{j omega^{prime}}right)+beta cdotleft[1-tilde{alpha}_{lambda}left(t, e^{j omega}right)right]left|Yleft(t, e^{j omega}right)right|^{2} end{aligned}$$

个中$tilde{alpha }_lambda (t,e^{jw})$是时变频次相干的腻滑参数,$beta$是在语音不存在时赔偿误差的因子[19]。腻滑参数由语音存在几率$p(t,e^{jw})$和示意其最小值的常数$alpha_{lambda}(0<alpha_{lambda}<1)$决议

$$公式12:tilde{alpha}_{lambda}left(t, e^{j omega}right) triangleq alpha_{lambda}+left(1-alpha_{lambda}right) pleft(t, e^{j omega}right)$$

当存在语音时,$tilde{alpha}_{_lambda }(t,e^{jw})$靠近1,从而防备由于语音重量而致使噪声预计增添。在语音缺失和静止背景噪声或滋扰瞬变的状况下,(6)中定义的TBRR相对较小(与$psi_{low}$比拟)。因而,先验语音缺失几率(7)增添到1,语音存在几率(8)削减到0。跟着语音涌现几率的下降,腻滑参数变小,有利于噪声预计的疾速更新。特别地,在(11)中的噪声预计可以治理瞬态和稳态噪声重量。它应用波束构成器输出信号和参考信号的功率比来辨别瞬时滋扰和希冀语音身分。

末了给出了洁净信号STFT的预计

$$公式13:hat{S}left(t, e^{j omega}right)=Gleft(t, e^{j omega}right) Yleft(t, e^{j omega}right)$$

个中

$$公式14:Gleft(t, e^{j omega}right)=left{G_{H_{1}}left(t, e^{j omega}right)right}^{pleft(t, e^{j omega}right)} cdot G_{min }^{1-pleft(t, e^{j omega}right)}$$

是OM-LSA增益函数,$G_{min}$示意无语音时增益的下限束缚。图4总结了多通道后置滤波算法的完成。表II给出了8 kHz采样率下各参数的典型值。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第3张

 图4所示。多通道麦克风后置滤波算法

5 试验设计

在这一部份中,我们将提出的后置滤波算法运用于语音加强问题,并评价其机能。我们评价了算法在集会室场景和汽车环境中的机能,并将简朴的单麦克风后置滤波器(MIXMAX和OM-LSA)与更庞杂的多麦克风算法举行了比较。

A 测试场景

关于集会室,研讨了图5所示的场景。围墙是一个尺寸为5米×4米×2.8米的集会室,在房间中心的一张桌子上安排了一个线性阵列。运用了两个扬声器。一个用于语音源,另一个用于噪声源。它们的位置和四个麦克风的位置如图5的左边所示。图的右边描写了从语音源到第一个麦克风的脉冲相应。该相应是运用输入信号源和接收到的麦克风信号(相应包括扬声器)之间的最小二乘拟合来取得的。我们注重到,在我们一切的试验中,我们运用了现实的纪录,而没有运用预计的脉冲相应。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第4张

 图5  测试场景(a)在一个喧闹的集会室里有四个麦克风。(b)从语音源到一号麦克风的脉冲相应

  该语音源由来自德州仪器和麻省理工学院(TIMIT)数据库[24]的四句话构成,具有差别的增益级别,如图6左边所示。麦克风信号的输入是经由历程夹杂语音和噪声身分发生的,这些身分是在差别的信噪比程度下离别在麦克风上丈量发生的。我们斟酌了三个噪声源。第一个是点噪声源。第二种是散布噪声源,第三种黑白安稳散布噪声源。为了发生点噪声源,我们经由历程扬声器传输了一个现实的电扇噪声纪录(低通PSD)。基于Dal-Degan和Prati[25]要领,模拟了平面PSD带通滤波噪声信号的全向发射,取得了散布噪声源。第三种是雷同的散布噪声源,但具有交变振幅,以证明该算法处置惩罚噪声信号中的瞬态的才能。

汽车场景经由历程现实的(零丁的)语音信号灌音和汽车噪声信号举行测试,语音信号由10个英语数字构成,如图6右边所示。汽车的窗户轻轻开着。过路的汽车和吹来的风会发生短暂的噪音。噪音的牢固身分来自于途径的延续嗡嗡声。四个麦克风安装在正面转向设置的遮阳板。麦克风信号由差别信噪比的语音和噪声信号夹杂发生。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第5张

 图6 洁净的语音信号。(a)集会中有4个TIMIT句子,(b) car中有10个英文数字。

B 算法的参数

全部体系的采样率为8千赫。在TF-GSC算法中,运用了以下参数。分块滤波器$H_m(e^{jw})$由非因果FIR-s建模,在区间[90,89]内具有180个系数。抵消弭滤波器$G_m(e^{jw})$由区间为250的非因果FIR-s建模[125,124]。为了完成堆叠和保存历程,运用了512个样本的片断。关于集会室环境,体系辨认程序运用13个片断,每一个片断1000个样本。在汽车环境中,有8个部份,500个部份被证明是充足的。我们注重到,体系辨识只适用于主动语音周期,而噪声坚持安稳特征。但是,正确的语音运动检测器(VAD)不是必要的。

运用了三种后过滤程序,即MIXMAX、OM-LSA和多麦克风。

关于MIXMAX算法[13],[14],帧长度被设置为L=256(50%堆叠),这对应于K=129个相干的频箱。用于限定噪声抵消器增益的阈值被设置为$delta _k=0.35$(关于$0leq kleq 36$)和$delta _k=0.18$(关于$37leq kleq 128$),即算法增益被每一个频bin中给定的G值限定。

关于OM-LSA算法,STFT运用256个样本长度(32 ms)的Hamming窗口和64个样本帧更新步骤(75%堆叠帧)完成。应用革新的决议计划导向要领预计先验信噪比,$alpha=0.92$。光谱增益被限定在最小20 dB,噪声PSD被预计运用革新的MCRA手艺[19]。用于预计先验语音缺失几率的参数值汇总在表一中(预计器及其参数在[15]中形貌)。

表1 OM-LSA算法用于先验语音缺失几率预计的参数取值

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第6张

多麦克风后过滤参数如表二所示。

表二 所提出的多麦克风后置滤波完成中的参数值

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第7张

C 客观评价

采纳三个客观质量指标对算法机能举行了评价。

第一个客观的质量丈量是在非运动语音时期的噪声程度(NL),定义为

$$NL=Mean_t{10log_{10}(E(t),tin Speechquad Nonactive)}$$

个中$E(t)=sum_{tau in T_t}y^2(tau ),y(t)$是要评价的信号(噪声信号或算法的输出),$T_t$为segment(段号)$t$对应的时候实例。注重,NL图越低,经由历程相应算法取得的效果越好。

第二个长处是加权节段信噪比(W-SNR)。该要领对频带内的节段信噪比举行加权。频带与耳临界频带成比例间隔,权值依据语音感知质量举行组织。

设$z_{1,s}(t)=alpha_1(t)*s(t)$为第一个麦克风中的仅语音部份,$y(t)$为要评价的信号。进一步定义,$Z_{1,s}(t,B_k)$和$Y(t,B_k)$是$B_k$频段的相应信号。如今,定义$SNR(t,B_k)=frac{sum_{tau in T_t}Y^2(tau ,B_k)}{sum_{tau in T_t}(Y(tau ,B_k)-Z_{1,s}(tau,B_k))^2}$段数$t$和频带$B_k$中的SNR。W-SNR定义为

$$begin{array}{l}{mathrm{W}-mathrm{SNR}}{=mathrm{Mean}_{mathrm{t}}left{10 log _{10}left(sum_{mathrm{k}} mathrm{W}left(mathrm{B}_{mathrm{k}}right) mathrm{SNR}left(mathrm{t}, mathrm{B}_{mathrm{k}}right), mathrm{t} in text { Speech Active }right)right}}end{array}$$

频带$B_k$及其对应的主要性权重$W(B_k)$按ANSI规范[26]。研讨表明,与典范信噪比或分段信噪比比拟,W-SNR丈量与听者感知到的质量观点更密切相干。

第三个与均匀看法评分(MOS)相干性较好的客观语音质量器量是由

$$begin{array}{l}{text { LSD }} {text { = Meant }{sqrt{left.operatorname{Mean}_{omega}left{left[20 log _{10}right] mathrm{S}left(mathrm{t}, mathrm{e}^{mathrm{j} omega}right)left|-20 log _{10}right| mathrm{Y}left(mathrm{t}, mathrm{e}^{mathrm{j} omega}right) |right]^{2}right}}} quad {t in text { Speech Active }}}end{array}$$

追念一下,$S(t,e^{jw})$和$Y(t,e^{jw})$离别是输入信号和评价信号的STFT。注重,较低的LSD级别对应于较好的机能。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第8张

 图7 非主动语音时期的均匀噪声程度(NL)

  四种噪声条件下的NL值如图7所示。从图7可以看出,关于每一个噪声源,运用多麦克风后置滤波器取得的残差噪声程度最低。在安稳噪声的状况下,两种单通道后置滤波器(MIXMAX和OM-LSA)的机能是相称的,只管与多麦克风后置滤波器有关,它们的机能有所下落。因而,用多麦克风后过滤替换单麦克风后过滤的长处就不那末显著了。TF-GSC波束构成器在方向性噪声源中取得了较好的效果,因而一切后置滤波的作用不如散布噪声场中的作用主要。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第9张

 图8 主动语音时期的均匀加权信噪比

  图8给出了W-SNR的效果。一样,一般来说,运用多麦克风后置滤波器可取得最好机能(最高W-SNR)。其主要性在非安稳噪声(非安稳散布噪声和汽车噪声)状况下更加显著。在定向(和静止)噪声场中,MIXMAX后置滤波器和多麦克风后置滤波器的机能险些雷同。但是,TF-GSC在没有任何后置滤波的状况下取得了很好的效果。LSD效果如图9所示。很显著,LSD质量器量的效果与前面的议论是一致的。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第10张

 图9  活泼语音时期的均匀LSD

  跟踪LSD和W-SNR长处随时候的变化也很风趣。在图10中,给出了汽车噪声状况下两种质量丈量要领的轨迹。为了轻易起见,图中还形貌了VAD决议计划。效果表明,在TF-GSC输出中运用多麦克风后置滤波器可以进步机能。在非运动演讲时期,这两种质量丈量要领的改良特别使人印象深入。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第11张

图10 汽车噪音的LSD和W-SNR陈迹

 

D 主观评价

主观质量评价是对超声图象的评价。从图11所示的声像图中可以得出一些视察效果。在$t=2.5$[s]和$t=4$[s]之间存在具有宽频次身分的噪声信号(由于超车)。波束构成器不能零丁处置惩罚这类非安稳噪声。虽然单传声器后置滤波器下降了噪声程度,但只要多传声器后置滤波器能给出使人满意的效果。$t=4.2$[s]和$t=5.5$[s]之间存在风吹(低频身分)。多传声器后置滤波器并不能完整消弭这类滋扰,但其机能优于其他算法。从声像图上也可以看出该算法的低失真。

非正式的听力测试证明了这些结论。处置惩罚过的语音信号的例子可以在[27]找到。

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第12张

图11(a)洁净汽车信号的声像图(b)麦克风1处有噪声信号(c)TF-GSC

(d)TF-GSC+MIXMAX(e)TF-GSC+OM-LSA(f)微型多麦克风后置滤波器

 

6 总结

多麦克风阵列常用于语音加强运用。尽人皆知,这些阵列的预期机能有肯定的局限性,特别是当噪声场趋于散布时。在汽车车箱中一般假定存在散布噪声场。为了进一步下降波束构成器输出的噪声,提出了几种后置滤波要领。两种要领在TF-GSC波束构成器的输出端运用当代单麦克风语音加强器。即运用之前提出的MIXMAX和OM-LSA算法。作为一种替换要领,一种新的多麦克风后过滤被归入TF-GSC。后一种要领应用TF-GSC中组织的噪声参考信号来革新噪声预计。一切的后置滤波要领都是经由历程客观(降噪、加权节段信噪比和对数光谱间隔)和主观质量丈量(声波图和非正式听力测试)来评价的。一切后置滤波器都进步了组合体系的降噪效果,特别是在散布噪声范畴。然则,在坚持TF-GSC主输出的低语音失真的同时,多麦克风后置滤波器的降噪效果最好。这一长处在非安稳噪声环境中取得了强调,在非安稳噪声环境中,革新后的噪声预计可以取得更强的表现。

参考文献

[1] L. J. Griffiths and C. W. Jim, An alternative approach to linearly constrained adaptive beamforming, IEEE Trans. Antennas Propagat., vol. AP-30, pp. 27 34, Jan. 1982. [2] S. Gannot, D. Burshtein, and E. Weinstein, Signal enhancement using beamforming and nonstationarity with application to speech, IEEE Trans. Signal Processing, vol. 49, pp. 1614 1626, Aug. 2001. [3] , Beamforming methods for multi-channel speech enhancement, in Proc. Int. Workshop Acoustic Echo Noise Control, Pocono Mannor, PA, Sept. 1999, pp. 96 99. [4] , Theoretical analysis of the general transfer function GSC, in Proc. Int. Workshop Acoustic Echo Noise Control (IWAENC01), Darmstadt, Germany, Sept. 2001. [5] , Analysis of the Power Spectral Deviation of the General Transfer Function GSC, IEEE Trans. Signal Processing, vol. 52, pp. 1115 1121, Apr. 2004. [6] R. Zelinski, A microphone array with adaptive post-filtering for noise reduction in reverberant rooms, in Proc. Int. Conf. Acoustics, Speech Signal Proc., 1988, pp. 2578 2581. [7] J. Bitzer,K.U. Simmer, and K.-D. Kammeyer, Multi-microphone noise reduction by post-filter and superdirective beamformer, in Proc. Int. Workshop Acoustic Echo Noise Control, Pocono Manor, PA, Sept. 1999, pp. 100 103. [8] , Multi-microphone noise reduction techniques as front-end devices for speech recognition, Speech Commun., vol. 34, pp. 3 12, 2001. [9] S. Fischer and K.-D. Kammeyer, Broadband beamforming with adaptive postfiltering for speech acquisition in noisy environment, in Proc. Int. Conf. Acoustics, Speech Signal Proc., vol. 1, Munich, Germany, 1997, pp. 359 362. [10] C. Marro, Y. Mahieux, and K. U. Simmer, Analysis of noise reduction and dereverberation techniques based on microphone arrays with postfiltering, IEEE Trans. Speech Audio Processing, vol. 6, pp. 240 259, May 1998. [11] J. Meyer and K. U. Simmer, Multichannel speech enhancement in a car environment using Wiener filtering and spectral subtraction, in Proc. Int. Conf. Acoustics, Speech Signal Proc.,Munich, Germany, Apr. 1997. [12] S. F. Boll, Suppression of acoustic noise in speech using spectral subtraction, in Speech Enhancement, J. S. Lim, Ed. Englewood Cliffs, NJ: Prentice-hall, 1983, pp. 61 68. [13] D. Burshtein and S. Gannot, Speech enhancement using a mixture- maximum model, in Proc. 6th Eur. Conf. Speech Communication Tech. EUROSPEECH, vol. 6, Budapest, Hungary, Sept. 1999, pp. 2591 2594. [14] , Speech enhancement using a mixture-maximum model, IEEE Trans. Speech Audio Processing, vol. 10, pp. 341 351, Sept. 2002. [15] I. Cohen and B. Berdugo, Speech enhancement for nonstationary noise environments, Signal Process., vol. 81, no. 11, pp. 2403 2418, Nov. 2001. [16] I. Cohen and B. Bedugo, Microphone array post-filtering for nonstationary noise suppression, in Proc. Int. Conf. Acoustics, Speech Signal Proc. (ICASSP), Orlando, FL, May 2002, pp. 901 904. [17] B. Widrow, J. R. Glover Jr., J. M. McCool, J. Kaunitz, C. S. Williams, R. H. Hearn, J. R. Zeider, E. Dong Jr., and R. C. Goodlin, Adaptive noise cancelling: principals and applications, Proc. IEEE, vol. 63, pp. 1692 1716, Dec. 1975. [18] R. E. Crochiere, A weighted overlap-add method of short-time fourier analysis/synthesis, IEEE Trans. Acoust., Speech, Signal Processing, vol. 28, pp. 99 102, Feb. 1980. [19] "Noise Spectrum Estimation in Adverse Environments: Improved Minima Controlled Recursive Averaging,", vol. 11, pp. 466 475, Sept. 2003. [20] I. Cohen and B. Berdugo, Noise estimation by minima controlled recursive averaging for robust speech enhancement, IEEE Signal Processing Lett., vol. 9, pp. 12 15, Jan. 2002. [21] Multi-Channel Post-Filtering in Non-Stationary Noise Environments, vol. 52, pp. 1149 1160, May 2004. [22] Y. Ephraim and D. Malah, Speech enhancement using a minimum mean square error short-time spectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. 32, pp. 1109 1121, Dec. 1984. [23] , Speech enhancement using a minimum mean square error logspectral amplitude estimator, IEEE Trans. Acoust., Speech, Signal Processing, vol. 33, pp. 443 445, Apr. 1985. [24] TheDARPATIMIT Acoustic-Phonetic Continuous Speech Corpus, Nat. Inst. Standards Technology. (1991, Oct.). NIST Speech Disc 1-1.1 [CDROM] [25] N. Dal-Degan and C. Prati, Acoustic noise analysis and speech enhancement techniques for mobile radio application, Signal Processing, vol. 15, no. 4, pp. 43 56, Jul. 1988. [26] ANSI, Specifications for Octave-Band and Fractional-Octave-Band Analog and Digital Filters, S1.1-1986 (ASA 65-1986), 1993. [27] S. Gannot and I. Cohen. (2002) Audio Sample Files. [Online] http://www.eng.biu.ac.il/~gannot/examples1.html

作者简介:

论文翻译:Speech Enhancement Based on the General Transfer Function GSC and Postfiltering IT教程 第13张

Sharon Gannot (S 92 M 01)于1986年取得以色列海法以色列理工学院的理学学士学位(4),并于1995年和2000年离别取得以色列特拉维夫大学的理学硕士学位(以优等结果取得)和博士学位,均为电子工程专业。从1986年到1993年,他是以色列国防军的研发负责人。2001年,他在比利时鲁汶Katholieke Universiteit (ku)的电气工程系(SISTA)担负博士后。2002年至2003年,他在以色列理工学院电子工程学院信号与图象处置惩罚试验室(SIPL)处置研讨和教学事情。现在,他是以色列巴伊安巴伊兰大学工程学院的讲师。他的研讨兴致包括参数预计,统计信号处置惩罚,语音处置惩罚,运用单个或多麦克风阵列。他是Eurasip运用信号处置惩罚杂志的副主编。

Israel Cohen (M 01 SM 03)离别于1990年、1993年和1998年在以色列海法的以色列理工学院(Technion Israel Institute of Technology)取得理学士(Summa Cum Laude)、理学士(M.Sc.)和电气工程博士学位。

从1990年到1998年,他是以色列国防部海法拉斐尔研讨试验室的一位研讨科学家。从1998年到2001年,他是耶鲁大学盘算机科学系的博士后研讨员。自2001年以来,他一直是以色列Technion电子工程系的高等讲师。他的研讨兴致包括统计信号处置惩罚、声学信号剖析和建模、语音加强、噪声预计、麦克风阵列、源定位、盲源星散、体系辨识和自适应滤波。

科恩博士是《IEEE语音和音频处置惩罚学报》和《IEEE信号处置惩罚快报》的副主编。

 

Java源码系列1——ArrayList

参与评论