logo资料库

论文研究-基于高斯混合模型的语音转换系统研究与实现 .pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 基于高斯混合模型的语音转换系统研究与 实现 江 芹,阙大顺* (武汉理工大学信息工程学院,武汉 430063) 摘要:语音转换是指将源说话人的语音个性特征转换为目标说话人的语音个性特征,使之听 起来像是目标说话人的语音。该文提出的语音转换系统可分为两个部分,基于高斯混合模型 的谱包络转换和基于残差预测的激励信号转换。第一部分采用语音信号的线谱参数进行训 练,得到转换规则,进而得出目标说话人语音的线谱参数,再转换为线性预测系数;第二部 分采用语音信号的残差在分类器的基础上预测得到目标说话人语音的残差信号,再和第一部 分得到的线性预测系数合成为目标说话人得语音。该语音转换系统在现有的语音系统基础上 加以改进,使转换后的语音质量得以提高,具有较高的语音自然度。 关键词: 语音转换;高斯混合模型;线谱参数;残差预测 中图分类号:TN911.7 Research and Implementation Of Voice Conversion System Based on Gaussian Mixture Model JIANG Qin1, QUE Dashun2 (School of Information Engineering,Wuhan University of Technology,Wuhan 430063) Abstract: Voice conversion is a technology about that change source speaker’s voice character into target speaker voice character, so that the source speaker’s voice sounds like the target speaker’s voice. In this paper, voice conversion system can be divided into two parts, that based on Gaussian mixture model of spectral envelope conversion and residual prediction based on the incentive signals. The first part conduct a train with the linear spectral parameters of the voice signal and get the conversion rules, then we can get the linear spectral parameters of the target speaker’s voice signal, and then turn the parameters into linear prediction coefficients; in the second part we predict the target speaker’s residuals signal using the voice residual signal on the basis of classifiers, at last we get the target speaker’s voice by combining the linear prediction coefficients in the first part and the voice residual signal. This voice conversion system have been improved on the basis of the existing voice conversion system, and increase voice quality of transforming, and let the voice has highly speech naturalness. Key words: voice conversion; gaussian mixture model; line spectrum parameters; residual prediction 0 引言 语音转换是指改变源说话人的语音个性特征,使之具有目标说话人得语音个性特征。语 音信号包含了丰富的信息,既有语义信息,也包含了说话人个性特征、情感以及说话的场景 等信息。语音转换就是要保留原有语义信息不变,而改变源说话人语音的个性特征,从而使 得语音再经转换之后听起来就像是目标说话人的声音一样。语音转换技术的应用领域非常广 泛,比如,具有说话人个性特征的文语转换(TTS)和语音合成系统、个性化语音短信、作 为语音识别系统中的说话人自适应模块用以降低因说话人差异而给识别系统带来的影响、帮 助发声器官和听觉器官受损的人提高语音质量等。 语音转换系统是通过改变语音信号的特征参数来调整语音的个性特征,因此首先要选取 分析和合成语音的系统模型,才能提取好的语音特征参数。然后才有合适的转换算法,最后 是训练和转换以及语音合成处理。 作者简介:江芹(1986-),女,主要研究方向:语音转换算法研究. E-mail: jq1119@126.com - 1 -
中国科技论文在线 http://www.paper.edu.cn 该文采用声源滤波模型,即 LPC 线性预测分析合成模型。LPC 模型符合语音发声原理, 可分解为表征谱包络的 LPC 系数和表征激励源的 LPC 残差,这两者都包含着大量的说话人 个性特征,通过对这两者的转换可以得到自然度较高的转换语音。LPC 系数转化为线谱参 数(LSF)进行训练,得出转换函数,再对源说话人语音参数进行转换得到目标说话人的 LSF 参数,进而转化为 LPC 系数,实现谱包络的转换;对 LPC 残差进行预测,以得到目标 说话人语音的 LPC 残差信号,实现激励源的转换;最后将二者合成,以达到高质量的转换 语音[1]。 1 语音信号谱包络的转换 1.1 训练 将源说话人和目标说话人的语音经过预加重,消除背景噪声等预处理之后,去掉语音开 始和结尾部分的静音部分。再将语音分成若干个交迭的语音帧,利用自相关法求出语音的线 性预测系数 LPC。然后将 LPC 系数转换为线谱参数 LSF,因为 LSF 的插值性要优于 LPC 系 数,而目标说话人的 LSF 参数是由源说话人的 LSF 参数加权平均得到的[2]。 训练的目的就是要找到一个转换函数,将源说话人的参数转换为目标说话人的参数,并 且误差最小。在此选择高斯混合模型 GMM,因为高斯混合模型 GMM 只需要不多的训练数 据就能比较精确的训练出一个模型。采用联合概率密度的方法,先训练一个联合概率密度 P X Y 的 GMM 模型,然后用条件期望 [ ( E y x 来预测Y 。 ] ) , 一个有 Q 个分量的 GMM 模型的概率分布为: | P(x)= Q ∑ q 1 = N xα μ q ( ; q , ∑ q ), Q ∑ q 1 = α α q = 1, q ≥ 0 (1) 其中 qα 是第 q 个分量的加权系数, ( ; N x μ ∑ 是均值为 qμ 协方差为 q∑ 的 p 维正态 ) , q q 分布函数,即 N x ( ; , μ ∑ = ) 1 p /2 (2 ) π exp( − 1 2 ∑ ( x − ) T μ ∑ 1 − ( x − )) μ (2) 一个 LSF 矢量 x 属于第 q 个分量的概率,可由贝叶斯准则计算得出: p c ( q | x ) = , ∑ q ) (3) q N x ( ; α μ q Q ∑ α μ q N x ( ; q q 1 = , ∑ q ) 利用期望最大 EM(Expectation Maximization)迭代算法来估计 GMM 的参数 , = [3]。迭代开始 GMM 参数初始值可由 kmeans 算法得到,在实验中 1 Q q q , q q ), ( α μ ∑ GMM 分量个数选取为 64。 1.2 转换 转换函数目的在于通过输入数据来预测所需要的输出数据。利用输入输出数据的联合概 率密度的 GMM 模型将转换函数构造为加权平均的模型,其中加权系数是输入数据属于某个 GMM 分量的后验概率。 首先,用源说话人 LSF 参数矢量 X 与目标说话人的参数矢量Y 构成一个联合矢量 Z , - 2 -
中国科技论文在线 http://www.paper.edu.cn Z 2p N × ⎡ = ⎢ ⎢ ⎣ p N × X Y p N × ⎤ ⎥ ⎥ ⎦ (4) 其中 p 为 LPC 的阶数,即为 LSF 参数矢量的维数; N 为 LSF 参数矢量的帧数。 将联合矢量 Z 进行 GMM 训练,得到源说话人和目标说话人的联合矢量 Z 的 GMM 模 型参数 ( α μ ∑ , Z q F x ( ) = q q ), Z ] = | , Z q [ E y x Q ∑ ( Y μ q q 1 = = Q = ,从而得到 1 ∫ y p y x dy ⋅ ( ) | + ∑ ∑ YX q ( XX q ) 1 − ( x − X μ q )) ⋅ p c ( q | x ) (5) ; = μ q ∑ = 其中 X qμ , Y q∑ , YX qμ , XX X XY ⎡ ⎡ ⎤ ∑ ∑ μ q q ⎢ ⎥ ⎢ Y YY ∑ ∑ μ ⎢ ⎥ ⎢ ⎣ ⎣ ⎦ q q qp c x 可由下式表示 | 而 ( ) , XX q YX q ∑ q p c ( q | x ) = q N x ( ; X α μ q Q ∑ X α μ q N x ( ; q q 1 = , ∑ XX q ) q∑ 由 Z qμ , Z q∑ 分解得来,即 (6) ⎤ ⎥ ⎥ ⎦ XX q ) (7) 将要转换的源说话人语音的 LSF 参数通过上述转换函数,得到目标说话人语音的 LSF 参数[4]。 1.3 实验结果 实验选取男声转换为女声,LPC 阶数选取为 12,GMM 分量个数选取为 64。将源语音(男 声)和目标语音(女声)经过 2.1 和 2.2 的处理,得到转换语音的 LSF 参数。将此 LSF 参数转化 为 LPC 系数,将 LPC 系数和目标语音的残差经过 LPC 滤波器,得到经过谱包络转换的转换 语音,下面给出转换语音的时域波形图。 0.5 0 -0.5 0 0.02 0 -0.02 0 0.02 0 -0.02 0 源语音时域波形 2000 4000 6000 目标语音时域波形 8000 10000 12000 14000 16000 2000 4000 6000 8000 10000 12000 14000 16000 18000 转换后的语音波形 2000 4000 6000 8000 10000 12000 14000 16000 图 1 经过谱包络转换的源语音、目标语音和转换语音时域波形图 由上图可以看出,在时域波形上,转换后的语音和目标语音很相近,说明这个谱包络转 换系统是可行的。 - 3 -
中国科技论文在线 2 语音信号残差预测 2.1 残差码本训练 http://www.paper.edu.cn 该系统采用的是 LPC 线性预测分析合成模型,因为 LPC 模型可以方便准确的提取语音 的激励源即残差,而语音的激励源包含着大量的说话人个性信息,是说话人特征的一个反映, 进行激励源的转换可以达到高质量的转换语音质量。残差预测部分主要用到目标说话人语音 LSF 参数和相应 LPC 系数的 LPC 残差信号。 将高斯混合模型 GMM 训练部分提取的目标说话人语音的 LPC 系数和语音信号通过逆 滤波器,得到相应的 LPC 残差信号 n Nr × , n 为每帧残差信号的样点个数, N 为帧数。再将 目标说话人语音帧进行清浊音判断,用高斯混合模型 GMM 对目标说话人语音浊音帧的 LSF C C C ,则对于目标说话人语音谱包络参数 LSF,根据 GMM 训 , ( 参数进行训练分类,为 1 qp c y 如下式所示 | ) 练分类有后验概率 ( N y ( ; α μ q q Q ∑ (8) 1 ( α μ q N y ( ; p c ( q α q μ q )Q Q ∑ ∑ ∑ ), = = q y ) ) ) , , , , , | q q q q 2 q 1 = ) − , μ 1 p /2 ∑ = exp( (2 ) π N y ( ; 1 2 qp c 对于其中每一个 GMM 模型分量, ( p c ( Q … ∑ − y y ( | | ) T μ ∑ 1 − ( y − )) μ (9) | y 可表示为 ) | ) ⎡ = ⎣ p c ( 1 y p c p c ( ( ), q 2 y 可看做为残差码本的权重,由 GMM 分量个数确定码本个 qp c ) 每个后验概率分量 ( | 数为 Q,残差码本可表示为 (10) ), ⎤ ⎦ y y ) , | , , ⎡ = ⎣ R R 1 2 R 而残差码本可由下列最小均方误差准则所计算得到 (11) ⎦ R , Q ⎤ E = N ∑ i 1 = ( r Rp c ( i q − | y )')'( r Rp c ( i q − | y )') (12) 使得 E 最小,上式可等价为 R N = ∑ ( i 1 = r p c ( i q | y ))( N ∑ i 1 = p c ( q | y p c )' ( q | y − )) 1 (13) 其中 ir 为浊音帧的 LPC 残差信号, ( qp c | y 为浊音帧 LSF 参数进行训练的后验概率, ) 根据上式就可计算出残差预测的码本,接下来就可以根据残差码本进行残差预测[5]。 2.2 残差预测 ∧ 语音在谱包络转换阶段,对于转换得到的目标语音谱包络参数为 y ,由式(8)和(9)可以 ∧ 得到后验概率 ( )p y ∧ ,根据 3.1 训练所得的残差码本,将 ( )p y 作为码本的各码本分量权值, 对目标语音的残差信号 ir ∧ 进行预测估计如下[6]: - 4 -
中国科技论文在线 http://www.paper.edu.cn ∧ = ∧ ir Rp y ( ) 残差的预测可以弥补目标语音谱包络的细节丢失,降低实际语音和转换语音的谱包络距 (14) 离。 2.3 实验结果 实验选取仍为男声转换为女声,这里需要的数据为 2.1 训练时用到的目标说话人语音的 LPC 参数和 LSF 参数矢量,以及 2.2 得到的转换语音的 LSF 参数。LPC 阶数和 GMM 分量 个数选取为 12 和 64。将这些数据经过 3.1 和 3.2 的处理得到目标语音的残差信号,将其和 目标语音的 LPC 参数通过 LPC 滤波器,得到经过残差转换的转换语音,下面给出转换语音 的时域波形图。 目标语音 0.02 0.01 0 -0.01 -0.02 0 0.02 0.01 0 -0.01 -0.02 0 2000 4000 6000 8000 10000 12000 14000 16000 经过残差转换的转换语音 2000 4000 6000 8000 10000 12000 14000 16000 图 2 经过残差转换的目标语音和转换语音时域波形图 由上图可以看出,在时域波形上,转换后的语音和目标语音很相近,说明这个基于残差 预测的激励源转换系统是可行的。 3 实验与结果 3.1 实验结果 该语音转换系统所用语音库为自行录制的语音,共有 4 个人发音,其中 2 个男声、2 个 女声,在该语音库中,每个人的发音语速基本一致,保证具有相同语义的语音信号具有较好 的时间对齐性。信号采样频率为 8kHZ。在此实验内容选取为男声转换为女声,GMM 模型 选为 64 阶,LPC 模型选为 12 阶。这里将本文上述的第二章和第三章的内容结合起来,实 现谱包络转换和残差预测的共同转换,实验结果如下图,对从男声到女声的转换语音画出了 时域波形图供分析。 源语音时域波形 0.5 0 -0.5 0 0.02 0 -0.02 0 0.01 0 -0.01 0 2000 4000 6000 目标语音时域波形 8000 10000 12000 14000 16000 2000 4000 6000 8000 10000 12000 14000 16000 18000 转换后的语音波形 2000 4000 6000 8000 10000 12000 14000 16000 图 3 经过谱包络转换的源语音、目标语音和转换语音时域波形图 由上图可以看出,在时域波形上,转换后的语音和目标语音比较相近,虽然与单独进行 - 5 -
中国科技论文在线 http://www.paper.edu.cn 谱包络转换和残差转换所得到的转换语音相比,效果要差些,但是还是可以看出,转换语音 具有目标语音的个性特征,下面就对这个语音转换系统进行性能评估。 3.2 性能评估 在这里,性能评估主要由客观评估和主观评估两种方法,客观评估是指将转换前后的特 征参数进行一定规则的比较,计算误差,而主观主要是通过一定人数的听觉测试,主观判断 转换之后的语音是否具有目标语音的个性特征。 (1)客观评价 在此利用测试数据建立一个度量来比较转换语音的质量,这个度量就是计算源语音和目 标语音,目标语音和转换语音之间的 LSF 矢量的距离。定义 A、B 两个特定语音的 LSF 矢 量的误差为: E LSF ( A B , ) = 1 N n 1 = N ∑ ∑ 1 p p i 1 = ( L n i , A − L n i , B 2 ) (15) 其中 N 为语音帧的总数, p 为 LPC 的阶数, ,n iL 是第 n 帧 LSF 矢量的第 i 个元素。 再定义 LSF 矢量转换性能指标为 P LSF 1 = − E E LSF LSF ∧ t n t n ( ( ), ( )) t n s n ( ( ), ( )) (16) 其中 ( ) s n 、 ( ) 分别为源说话人语音、目标说话人语音和转换之后语音的 LSF 矢量集合。考虑到不同说话人之间的差异和 LPC 阶数的影响,这里只计算 LSF 矢量的误差 ∧ t n 、 ( ) t n ∧ t n t n ( ( ), ( )) LSFE 能指标 LSFP 考虑为语音转换系统的谱包络转换性能。当 1 人之间的误差,也就是说转换没有任何效果; 是不够的,也要将源语音和目标语音 LSF 矢量误差考虑进来,因此,将性 LSFP = 时,说明转换误差等于说话 LSFP = 时,表明转换误差为零,转换语音的 LSF 参数矢量与目标语音的 LSF 参数矢量是一样的,但这种结果在实际实验中式不可能发 声的。综上所述,转换系统的 LSFP 越接近于 1,说明所设计的语音转换系统性能越好[7]。 0 根据 2.3 所得的实验数据,有源语音、目标语音和转换语音的 LSF 参数矢量,代入式(16), 并选取不同的 GMM 模型个数,LPC 阶数选取为 12,可得到以下结果。 表 1 谱包络转换性能评估表 16 32 64 128 GMM 个数 t n s n ( ( ), ( )) t n t n ( ( ), ( )) LSFP ∧ 0.9640 4.5468e-004 1.6374e-005 4.5468e-004 1.4446e-006 4.5468e-004 5.4783e-006 LSFE LSFE 由表 1 可知,高斯混合模型 GMM 分量个数影响语音转换系统的性能,并且随 GMM 分 量个数的增加,转换性能越好,但是这里也有一个弊端,就是 GMM 分量过多会造成数据量 增多,会影响数据处理的速度。上表中所求得的 LSFP 值均接近 1,说明此设计的谱包络转换 方法是可行的。 4.5468e-004 3.4239e-007 0.9992 0.9968 0.9880 (2)主观评价 主观评价方法是根据人的主观听觉按照一定评价标准给出被测试语音的判断结果,语音 - 6 -
中国科技论文在线 http://www.paper.edu.cn 转换系统的应用价值是对人而言的,因此主观评价方法是一种非常重要的评价标准。语音转 换结果主要有 ABX 测试、MOS 测试和倾向性测试三种,这里主要介绍 ABX 测试方法[8]。 ABX 测试中的 A、B、X 分别表示源语音、目标语音和转换语音。测试时通过人的主观 听觉对转换后的语音做出判断,判断转换后的语音 X 是像源说话人语音 A 还是目标说话人 语音 B。ABX 方法有它的局限性,即使是 100%的结果也不表示转换的语音和目标语音没有 区别。下面给出进行 ABX 测试的结果,参加听音测试的为实验室 16 人,结果如下表: 表 2 ABX 测试评价结果 GMM 个数 测试结果 由以上数据可以得知,此语音转换系统在自然度和可懂度上的质量比较高,达到了预期 128 96% 64 94% 16 75% 32 80% 的效果。 4 结论 采用高斯混合模型和残差预测来实现语音转换系统,整个系统分为谱包络转换和激励源 转换两个部分,其中谱包络转换利用语音的 LSF 参数进行训练转换,激励源转换利用语音 的残差进行预测。转换后的语音可懂性和自然性都比较高,转换语音与目标说话人的自然语 音比较接近,但是还是存在一些误差。后续工作可以在训练时语音时间对齐方面进行细节处 理,使训练效果更高,另外可以在实时方面加以研究,使语音转换技术应用更加广泛。 [参考文献] [1] Hui Ye, Steve Yong. High quality voice mopping[J]. ICASSP 2004 IEEE,2004:I9-I12 [2] 张照坤.基于高斯混合模型的语音转换技术的研究[D].南京:南京邮电大学,2008 [3] Winston S.Percybrooks, Elliot Moore. Voice conversion with linerar prediction residual estimation[J]. training sets[J]. ICASSP 2008 IEEE,2008:4669-4672 [6] 王薇,杨震.基于 GMM 的语音转换系统性能研究[J].信号处理,2009, 8A:175-178 [7] 李波.语音转换的关键技术研究[D].长沙:国防科技大学,2005 [8] 颜祥.基于韵律联合短时谱的说话人变换[D].苏州大学,2007.5 ICASSP 2008 IEEE,2008:4673-4676 prosody[J]. ICASSP 2008 IEEE,2008:659-662 [4] Zhang Bing, Yu Yibiao. Voice conversion based on improved GMM and spectrum with synchronous [5] Elina Helander, Jani Nurminen, Moncef Gabbouj. LSF mapping for voice conversion with very small - 7 -
分享到:
收藏