IT教程 ·

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders

【阿里云IoT+YF3300】15.阿里云物联网小程序构建

 

择要

  为了进步宽带装备从窄带装备或基础设施吸收语音信号的质量,开发了人工带宽扩大(ABE)算法。以动态特征或从相近帧捕获的explicit memory(显式内存)的情势运用上下文信息,在ABE研讨中很罕见,然则运用分外的信息会增添庞杂性,并会增添耽误。之前的事情表明,无监视的线性降维手艺有助于下降庞杂性。本文提出了一种运用Stacked Auto-Encoder(堆叠自动编码器)举行降维的半监视非线性要领。与之前的事情进一步对照,它对原始频谱举行操纵,从原始频谱中以数据驱动的体式格局进修低维窄带示意。三种差别的客观语音质量目标表明,新特机可以与范例回归模子相连系来进步ABE的机能。进修到的特征和缺失的高频身分之间的互相信息也获得了改良,非正式的听力测试证实了语音质量获得了改良。

1、弁言

  虽然传统的窄带(NB)电话基础设施的带宽被限定在0.3-3.4kHz,但本日的宽带(WB)手艺支持运用从50Hz-7kHz扩大的带宽来进步语音质量。为了进步宽带装备与NB装备或基础设施一同运用时的语音质量,研讨了人工带宽扩大(ABE)算法。运用两个[1]之间的相关性,ABE运用现有NB重量预计3.4kHz以上缺失的高频重量,一般采纳从WB练习数据中进修的回归模子。

  基于源滤波器模子的ABE要领预计了星散的频谱包络和鼓励重量[2,3]。其他ABE要领直接作用于推导出庞杂的短时候频谱预计,比方运用傅里叶变更(STFT)[4,5]或constant-Q变更[6]。与短时候谱预计相补充的是某种情势的contextual information(上下文信息)或menory(影象),可以用来进步HB重量预计的可靠性。一些特定的后端回归模子,如隐马尔可夫模子(HMMs)[7,8]和深度神经收集(DNNs)[9 11],以时候信息的情势捕获memory。一些DNN处置惩罚方案,比方[4,12,13],在前端捕获memory,比方,经由过程增量特征或来自相邻帧的静态特征。在研讨了ABE[14]的前端特征提取以后,[15 17]的事情经由过程信息论剖析研讨了memory包含的长处。本研讨在牢固维数的束缚下,经由过程增量特征证实了memory包含的优点。但是,为了顺应动态增量特征,memory的包含须要丧失高阶静态HB特征。我们本身的事情[18]定量地剖析了牢固ABE处置惩罚方案中显式内存包含的优点。该事情还处置惩罚了耽误和庞杂性问题。运用主身分剖析(PCA)来治理庞杂性,以便在不增添特征维数的情况下归入memory;回归庞杂度不受影响。PCA是一种无监视的线性降维要领,它的目标只是生成一个低维示意,尽量保留输入示意的变化。本文研讨的假设是,监视或半监视和非线性降维手艺为进修特地针对ABE的低维示意供应了大概,从而取得更好的机能。

  自动编码器(AEs)是一种愈来愈受欢迎的非线性降维要领,已被普遍运用于很多语音处置惩罚使命,如音素/语音辨认[19 21]和语音合成[22]。这些例子中罕见的是运用AEs进修所谓的瓶颈特征,即针对模式辨认和分类定制的紧凑特征示意。本论文研讨了用堆叠(deep)AEs来下降ABE的非线性维数,特别是用经由半监视练习的堆叠(deep)自动编码器。我们的目标是

  (i)在紧凑、低维的示意中运用memory,以进步预计的HB部份的可靠性;

  (ii)直接从原始频谱系数而不是手工制造的特征中进修NB特征。经由过程客观评价、信息论要领和非正式的听力测试来评价这两篇文章的代价。

  本文的其余部份构造以下。第2节形貌了一个基线ABE算法。第3节展现了怎样运用半监视堆叠AEs来进步其机能。第4节试验事情,第5节效果,第6节结论。

2、基线ABE体系

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders IT教程 第1张

图1:包含memory的基线ABE体系框图  

  图1显现了基线ABE体系。它与[18]中提出的基于源滤波器模子的要领是一致的。因为上面供应了完全的细节,所以这里只供应一个扼要的概述。该算法由练习、预计和再合成三个部份构成。

  练习离别运用NB和WB帧frame-blocked(壅塞信号)$x_t$和$y_t$举行,个中t为时候目标。采纳10 log-Mel滤波能量系数(logMFE)对NB重量举行参数化($X_t^{NB}$--练习框架的顶层)。经由过程挑选线性展望(SLP)[23]对HB重量举行参数化,获得9个线性展望(LP)系数和一个增益参数($Y_t^{HB}$ -练习框架的底端)。NB和HB特征经由均值和方差正态化($mvn_x$和$mvn_y$),获得$X_{t,mvn}^{NB}$和$Y_{t,mvn}^{HB}$。将t时候的NB特征与从$delta $相邻帧中提取的特征串连起来,获得

$$X_{t,conc_delta }=[X_{t-delta ,mvn}^{NB},...,X_{t ,mvn}^{NB},...,X_{t+delta ,mvn}^{NB}]^T$$

  为了限定庞杂性,采纳PCA(主身分剖析法)将$X_{t,conc_delta}$降为10维特征$X_{t,pca_delta}^NB$。主身分剖析矩阵$W_{PCA}$是从练习数据中进修而来,在预计步骤中坚持稳定。末了,运用串连$Z=[X_{t,pca_delta}^{NB}, Y_{t,mvn}^{HB}]^T$从练习数据中进修128重量全协方差高斯夹杂模子(GMM)。

  对上采样过的NB信号$hat{x}$举行预计。依据练习中雷同的NB处置惩罚和memory inclusion举行处置惩罚获得10维特征$hat{X}_{t,pca_delta}^{NB}$。然后将练习中进修的GMM参数定义的传统回归模子[2]用于预计HB特征$hat{Y}_{t,mvn}^{HB}$。运用练习获得的均值和方差,采纳逆均值和方差归一化($mvn_y^{-1}$)预计HB LP系数$hat{a}^{HB}$和增益$hat{g}^{HB}$。

  依据图1中编号块所示的三个差别步骤举行从新合成。起首(框1)由NB LP参数$hat{g}^{NB}$、$hat{a}^{NB}$和预计的HB参数$hat{g}^{HB}$、$hat{a}^{HB}$定义的$hat{x}_t$的NB和HB功率谱预计缺失WB功率谱。然后运用逆疾速傅里叶反变更(IFFT)和Levinson-Durbin递归,从WB功率谱中获得预计的WB参数$hat{g}^{WB}$和$hat{a}^{WB}。第二(框2)采纳由$hat{g}^{NB}$和$hat{a}^{NB}$定义的LP剖析滤波器获得NB鼓励$hat{u}_t^{NB}$。然后运用频谱平移[3]和高通滤波器(HPF)获得HB鼓励重量$hat{u}_t^{HB}$,在恰当的耽误D后到场$hat{u}_t^{NB}$获得扩大的WB鼓励$hat{u}_t^{WB}$。末了(框3)运用$hat{g}^{WB}$和$hat{a}^{WB}$定义的合成滤波器对$hat{u}_t^{WB}$举行滤波,以从新合成语音帧$hat{t}_t$。堆叠和相加(OLA)获得扩大的WB语音$hat{y}$。

3、ABE运用半监视堆叠的自动编码器

  基线ABE算法采纳无监视的线性降维要领,使得在练习中进修并用于预计的范例回归模子的庞杂度因为memory inclusion而坚持稳定。本文的事情是运用一种半监视的、非线性的、运用堆叠式自动编码器的降维手艺来进步ABE的机能。

3.1 客栈式自动编码器

  自动编码器(AE)是一种普遍用于进修高等数据示意的人工神经收集。声发射由编码器和解码器构成。编码器f()依据:

$$公式1:y=f_{theta}(x)=s(Wx+b)$$

个中o = fW;bg为权矩阵W和偏置向量b的参数集,函数s为非线性变更。编码器背面是解码器g 0(),其目标是依据所进修的示意y重构原始输入:

$$z=g_{{theta}'}(y)={s}'({W}'y+{b}')$$

个中0 = fW0;依据输入x的性子,b0g和s0可以是线性变更,也可以黑白线性变更。运用均方偏差(MSE)目标丧失函数对0g举行优化,该函数反应了输入和重修输出之间的差别。

  更深条理的收集天生具有更强的才能来进修高度非线性和庞杂的函数[24]。经由过程叠加多层编码器和解码器,可以增添声发射的深度,从而构成叠加式自动编码器(SAE)。但是,跟着收集的增进,收集要找到全局最小[25]变得愈来愈难题。

  为了减缓这些问题,一般采纳某种情势的预练习来初始化收集权值。盛行的处置惩罚方案包含运用受限玻尔兹曼机(RBMs)[25]举行预培训,以及对AEs[26]举行降噪。层在练习前聚集,然后举行微调。其他事情研讨了收集初始化的替代要领,如[27,28]。

3.2 运用ABE

  经由过程基于重构的目标丧失函数,SAEs可以进修输入和重构输出之间的简朴映照,而不是有意义的高等示意[26]。另外,因为没有监视,从传统SAE的瓶颈层提取的特征没有明白设想用于分类或回归;在这方面,它们大概不是最优的。在[24]中,部份监视的AEs预练习被证实是有益的,特别是对回归使命。

  在此基础上,我们探究了SAEs的半监视练习,以便进修特地为回归建模和ABE设想的紧凑示意。获得的具有两个输出层的半监视SAE (SSAE)体系构造如图2所示。一个输出层进修用传统的SAE重构输入(AE输出),另一个输出层进修预计缺失的HB特征(回归输出)。这是经由过程给出的团结目标丧失函数来完成的

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders IT教程 第2张

个中Lreg和Lae离别为回归和AE输出的目标丧失函数,个中c2 [0];1]加权个人丧失的孝敬。

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders IT教程 第3张

SSAE体系构造还可以用于直接从回归层预计HB组件。在[29]中报导了一个相似的基于CNN的体系构造,该构造设想用于范例化短i-向量到长i-向量的映照,用于演讲者的二值化使命。这里的重点是差别的,即。,范例/监视降维,以保留对ABE至关重要的信息。这些信息被一个范例的回归模子所运用。为了研讨基于ssa的降维要领的长处,将图1(赤色框)中的权值矩阵WPCA替代为SSAE编码器(图2中的赤色框),然后对提取的低维特征举行均值和方差归一化。GMM的练习和预计依据第2节中形貌的雷同体式格局实行。本文还报导了这类要领的一个变体,即低维NB示意直接从NB对数功率谱(LPS)系数而不是logMFE特征获得。这是经由过程用LPS系数替代logMFE特征来完成的。

4、试验

试验旨在比较运用PCA降维MPCA 2的基线ABE体系与运用SSAE降维MAE 2的基线ABE体系的机能。体系mpca2和MAE 2离别运用^X NB t;pca 2和^X NB t;ae 2;mvn特征。本节形貌用于ABE试验的数据库、SSAE设置细节和器量。

4.1 数据集

TIMIT数据集[30]用于培训和考证。将练习集合的3696个话语和测试集合的1152个话语(不含中心测试子集)依据[6]中形貌的步骤处置惩罚并行的WB和NB语音信号,练习ABE解。TIMIT中心测试子集(192条语句)用于考证和优化收集参数。受[31]中提出的剖析要领的启示,运用由1378个语音构成的声学差别TSP数据库[32]举行测试。将TSP数据降采样至16kHz,并举行相似的预处置惩罚,获得并行的WB和NB数据。

4.2 SSAE练习和设置

SSAE是运用Keras工具包[33]完成的。与之前的事情[18]一致,特征Xt;将t时候的conc2(由前两帧和后两帧拼接而成)输入SSAE。AE输出与输入雷同,回归输出设为HB feature Y HB t;mvn。为了进步收敛速率到全局最小值,依据[28]中形貌的要领对SSAE举行初始化。优化是依据[34]中形貌的程序举行的,范例进修率为0.001,动量为0.9,MSE范例。

我们研讨了两种6层对称SSAE构造,它们在隐层中具有差别的单位数:1)512、256、10、256、512 (Arch-1);2) 1024、512、10、512、1024 (Arch-2)。输出层由50个(AE)和10个(回归)单位构成。隐层具有tanh或ReLU激活单位,而输出层具有线性激活单位。研讨了辍学(dr)[35]和批量范例化[36]手艺,以防备过分拟合。当考证丧失在一连两个时点之间增添时,进修率下降了一半。回归和AE丧失权重均设为c=0.5。收集被练习了30个时期。

4.3 器量

功绩报告是依据客观评价。目标光谱失真丈量包含:均方根对数光谱失真(RMS-LSD);所谓的COSH测度(对称版的Ikatura-Saito失真)[37]盘算的频次局限为3.4-8kHz,并将WB扩大到感知剖析的语音质量算法[38]。后者给出了均匀看法得分的客观预计(mo - lqowb)。经由过程互信息(MI)[14]丈量SSAE和PCA示意与HB特征的相关性。

5、效果

表1显现了激活(bn-a)以后或激活(bn-b)之前实行的两种差别体系构造和四种差别的dropout (dr)和批处置惩罚范例化组合的MSE的考证机能。在一切隐蔽层之前运用Dropout层。相对较低的MSE值是在没有退出或批量范例化(设置A)的情况下完成的,只管关于具有ReLU激活的Arch-2来讲机能很差。在没有批处置惩罚范例化(configuration D)的情况下运用dropout会致使收集的非范例化,特别是关于ReLU激活。相似的视察在[31]中也有报导。运用任何一种没有退出的批处置惩罚正常化要领都可以获得较低的MSE值,最好的效果是运用bn-b设置(C)获得的。本文其余部份报告的一切效果都与此设置有关。

表1:差别SSAE设置的均匀MSE,包含体系构造1和体系构造2,具有ReLU或tanh激活函数,具有或不具有dropout (dr)和batch normalisation (bn)(在(a)激活后或激活前)。dr值示意被设置为0的随机隐蔽单位的分数。运用考证数据集对评价效果举行了申明。

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders IT教程 第4张

从测试集以及基线MPCA 2和基于ssa的MAE 2到ABE要领中取得的机能目标如表2所示。只要一个破例,光谱失真器量效果显现SSAE值低于基线值。SSAE体系的莫斯- lqowb评分一直较高。激活tanh的Arch-2 SSAE体系机能最好。不幸的是,只管客观表现目标有令人信服的革新,非正式的听力测试显现基线和SSAE体系发生的语音信号质量之间几乎没有显著的差别。

表2:目标机能器量效果。在dB中,RMS-LSD和dCOSH是均匀光谱失真器量(低值示意更好的机能),而莫斯- lqowb值反应质量(高值示意更好的机能)。

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders IT教程 第5张

表3显现了运用LPS输入(而不是logMFE特征)练习的两种机能最好的SSAE设置Arch-1C和Arch-2C(都是tanh激活)的目标机能器量。失真丈量值一直较低,而莫斯- lqowb评分一直高于一切其他基于ssa的体系的效果。与运用logMFE功用的SSAE体系的效果相反,非正式听力测试显现,与运用基线ABE体系生成的语音比拟,语音质量有显著改良。在logMFE和LPS输入上运转的基线和SSAE体系发生的带宽扩大语音的例子可以在网上找到。

表3:运用原始对数功率谱(LPS)输入替代对数- mel滤波能量(logMFE)对SSAE举行客观评价的效果。

论文翻译:2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-encoders IT教程 第6张

末了一组效果旨在进一步考证客观和非正式听力测试的效果。这是经由过程视察改良之间的互信息(MI)和真正的学会了NB示意HB示意丈量运用测试集。128 -组件fullcovariance GMM和团结练习向量由学会NB和真正的HB特征用于MI预计如[18]所述。表4所示的MI效果表明,运用LPS输入练习tanh激活的Arch-2C SSAE体系的MI相关于基线体系增添了23%。这一效果证实了上述发明,即对原始光谱输入举行操纵的半监视手艺可以进修更好的示意,从而进步ABE机能。

表4:互信息评价效果。我(X;示意特征X与特征Y之间的MI。

 

6、结论

提出了一种用于人工带宽扩大的非线性半监视降维要领。进一步运用叠置自编码器进修高阶示意的才能,直接从原始光谱中进修紧凑窄带特征。该要领的长处经由过程差别的客观目标获得了证实,并经由过程非正式听力测试的效果获得了证实。信息理论剖析证实了新特征的有效性。在不增添庞杂度的情况下,范例的回归模子可以运用以数据处置惩罚体式格局从原始光谱中提取的特征。运用潜伏的光谱模子转换及其进一步优化来进修ABE的特征应该是我们将来的重点。进一步的事情还应该研讨半监视的自动编码器与非监视或部份监视的练习前要领的连系。这些大概供应了更大的潜力,以进步人工带宽扩大语音的质量。

7、参考文献

[1] Y. Cheng, D. O’Shaughnessy, and P. Mermelstein, “Statistical recovery of wideband speech from narrowband speech,” IEEE Trans. on Speech and Audio Processing, vol. 2, no. 4, pp. 544–548, 1994.
[2] K.-Y. Park and H. Kim, “Narrowband to wideband conversion of speech using GMM based transformation,” in Proc. of IEEE
Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP),vol. 3, 2000, pp. 1843–1846.
[3] P. Jax and P. Vary, “On artificial bandwidth extension of telephone speech,” Signal Processing, vol. 83, no. 8, pp. 1707–1719, 2003.
[4] K. Li and C.-H. Lee, “A deep neural network approach to speech bandwidth expansion,” in Proc. of IEEE Int. Conf. on Acoustics,Speech and Signal Processing (ICASSP), 2015, pp. 4395–4399.
[5] R. Peharz, G. Kapeller, P. Mowlaee, and F. Pernkopf, “Modeling speech with sum-product networks: Application to bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 2014, pp. 3699–3703.
[6] P. Bachhav, M. Todisco, M. Mossi, C. Beaugeant, and N. Evans, “Artificial bandwidth extension using the constant Q transform,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5550–5554.
[7] C. Ya˘gli and E. Erzin, “Artificial bandwidth extension of spectral envelope with temporal clustering,” in Proc. of IEEE Int. Conf.on Acoustics, Speech, and Signal Processing (ICASSP), 2011, pp.5096–5099.
[8] I. Katsir, D. Malah, and I. Cohen, “Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation,” in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). VDE, 2012, pp. 1–4.
[9] Y. Wang, S. Zhao, D. Qu, and J. Kuang, “Using conditional restricted boltzmann machines for spectral envelope modeling in speech bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2016, pp.5930–5934.
[10] Y. Gu, Z.-H. Ling, and L.-R. Dai, “Speech bandwidth extension using bottleneck features and deep recurrent neural networks.” in Proc. of INTERSPEECH, 2016, pp. 297–301.
[11] Y. Wang, S. Zhao, J. Li, J. Kuang, and Q. Zhu, “Recurrent neural network for spectral mapping in speech bandwidth extension,” in Proc. of IEEE Global Conf. on Signal and Information Processing(GlobalSIP), 2016, pp. 242–246.
[12] B. Liu, J. Tao, Z. Wen, Y. Li, and D. Bukhari, “A novel method of artificial bandwidth extension using deep architecture,” in Sixteenth Annual Conf. of the Int. Speech Communication Association,2015.
[13] J. Abel, M. Strake, and T. Fingscheidt, “Artificial bandwidth extension using deep neural networks for spectral envelope estimation,” in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). IEEE, 2016, pp. 1–5.
[14] P. Jax and P. Vary, “Feature selection for improved bandwidth extension of speech signals,” in Proc. IEEE Int. Conf. on Acoustics,Speech, and Signal Processing (ICASSP), 2004, pp. I–697.
[15] A. Nour-Eldin, T. Shabestary, and P. Kabal, “The effect of memory inclusion on mutual information between speech frequency bands,” in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), vol. 3, 2006, pp. III–III.
[16] A. Nour-Eldin and P. Kabal, “Objective analysis of the effect of memory inclusion on bandwidth extension of narrowband speech,” in Proc. of INTERSPEECH, 2007, pp. 2489–2492.
[17] ——, “Mel-frequency cepstral coefficient-based bandwidth extension of narrowband speech,,” in Proc. of INTERSPEECH,2008, pp. 53–56.
[18] P. Bachhav, M. Todisco, and N. Evans, “Exploiting explicit memory inclusion for artificial bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2018, pp. 5459–5463.
[19] J. Gehring, Y. Miao, F. Metze, and A. Waibel, “Extracting deep bottleneck features using stacked auto-encoders,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2013, pp. 3377–3381.
[20] T. Sainath, B. Kingsbury, and B. Ramabhadran, “Auto-encoder bottleneck features using deep belief networks,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2012, pp. 4153–4156.
[21] D. Yu and M. Seltzer, “Improved bottleneck features using pretrained deep neural networks,” in Twelfth Annual Conf. of the Int.Speech Communication Association, 2011.
[22] S. Takaki and J. Yamagishi, “A deep auto-encoder based lowdimensional feature extraction from fft spectral envelopes for statistical parametric speech synthesis,” in Proc. of IEEE Int. Conf.on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp.5535–5539.
[23] J. Markel and A. Gray, Linear prediction of speech. Springer Science & Business Media, 2013, vol. 12.
[24] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle, “Greedy layer-wise training of deep networks,” in Advances in neural information processing systems, 2007, pp. 153–160.
[25] G. Hinton and R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” science, vol. 313, no. 5786, pp. 504–507, 2006.
[26] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P.-A. Manzagol,“Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion,”Journal of Machine Learning Research, vol. 11, no. Dec, pp.3371–3408, 2010.
[27] X. Glorot and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in Proc. of the Thirteenth Int.Conf. on Artificial Intelligence and Statistics, 2010, pp. 249–256.
[28] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,” in Proc. of the IEEE int. conf. on computer vision, 2015, pp. 1026–1034.
[29] J. Guo, U. A. Nookala, and A. Alwan, “CNN-based joint mapping of short and long utterance i-vectors for speaker verification using short utterances,” Proc. of INTERSPEECH, pp. 3712–3716, 2017.
[30] J. Garofolo, L. Lamel, W. Fisher, J. Fiscus, and D. Pallett,“DARPA TIMIT acoustic-phonetic continous speech corpus CDROM.NIST speech disc 1-1.1,” NASA STI/Recon technical report N, vol. 93, 1993.
[31] J. Abel and T. Fingscheidt, “Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation,” IEEE Trans. on Audio, Speech, and Language Processing,vol. 26, no. 1, pp. 71–83, 2018.
[32] P. Kabal, “TSP speech database,” McGill University, Database Version : 1.0, pp. 02–10, 2002.
[33] F. Chollet et al., “Keras,” ,2015.
[34] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[35] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” The Journal of Machine Learning Research,vol. 15, no. 1, pp. 1929–1958, 2014.
[36] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in Int. conf.on machine learning, 2015, pp. 448–456.
[37] R. Gray, A. Buzo, A. Gray, and Y. Matsuyama, “Distortion measures for speech processing,” IEEE Trans. on Acoustics, Speech,and Signal Processing, vol. 28, no. 4, pp. 367–376, 1980.
[38] “ITU-T Recommendation P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs,” ITU, 2005.

 

gRPC in ASP.NET Core 3.x - gRPC 简介

参与评论