¨儿129一#科f1娄:三堂分类日—旦望!!一峥&代日—卫堡塑m‰:——痈名榔孪生碧硕士学位论文论文题日:基于S1’RAIGHT模型的语音转璁!!i堕学生姓名指导教师学科专业研究方向论文提交日期硕050927张玲华教授信号'-3信息处理现代语音处理与通信技术
南京邮电大学硕士研究生学位论文摘要摘要语音转换是一项改变说话人语音特征的技术,可以将一个人的语音模式转换为另外一个人的语音模式。语音转换是语音信号处理领域一个比较新的分支,具有很重要的理论和实用价值。本文的主要内容为以下几个方面:1.研究了语音转换的相关知识,包括语音的产生、语音参数的提取、语音信号分析中常用的基本模型。2.就实验中语音转换所采用的STRAIGHT模型、所提取的参数、训练所用的高斯混合模型进行了讨论。STRAIGHT模型的特性是在时一频域利用音节自适应重新构建语音的方法,同时它还利用人为的相位全通滤波器来提取源语音的特征参数。它提取的主要参数有基音频率参数。STRAIGHT模型与其他的语音模型相比,在语音分析和合成时能获得更高的语音质量。3.基于STRAIGHT模型提取LPC任J谱(LPCC)参数和线谱对(LSP)参数,并用这些参数合成出新的语音,并给出了由这些参数转换前后语音的基音频率图和频谱包络图,并对两种方法进行转换后的语音进行了评价和比较。关键词:语音转换、STRAIGHT模型、LPC倒谱、线谱对
南京邮电大学硕士研究生学位论文摘要ABSTRACTVoiceconversionisatechniquethatmodifiesasourcespeaker’Sspeechtobeperceivedasifatargetspeakerhadspokenit.Itisallexcitingnewbranchofspeechprocessingthatdealswithspeakeridentity.ThemaincontentofthisthesisiSasfollows:1.Someknowledgeaboutvoiceconversion,includingthegenerationofvoice,theextractionofvoiceparameter,themodelsofvoiceanalysis,hasbeenpresentedinthisthesis.2.TheSTRAIGHTmodelwhichisusedintheexperiment,theparameterswhichareextracted,andtheGMMtrainingmodelareintroduced.TheSTRAIGHTmodelaleusedintheexperimentwhichusespitch-adaptivetime—frequency‘analysiscombinedwithasurfacereconstructionmethodinthetime-frequencyregionandalsoanexcitationsourcedesignbasedonphasemanipulationofall—passfilters.Intheexperimentthebasicfrequencyofvoiceisexcited.Comparingtoothermodels,itCanimprovethequalityofvoiceconversioninanalyzingvoiceandsynthesizingvoice.3.ItintroducestheLPCintheSTRAIGHTmodelandsynthesisnewvoicewiththem,andtheimagesaboutthebasicfrequencyandcontourfrequentaregiven.Intheend,theLPCcepstrumparameterandLSPparameterareevaluated.Keyword:voiceconversion,theSTRAIGHTmodel,LPCCepstrum,LSP
南京邮电大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。研究生签名:盒§皇日期:翌墨:竺!主南京邮电大学学位论文使用授权声明南京邮电大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的复印件和电子文档,可以采用影印、缩印或其他复制手段保存论文。本人电子文档的内容和纸质论文的内容相一致。除在保密期内的保密论文外,允许论文被查阅和借阅,可以公布(包括刊登)论文的全部或部分内容。论文的公布(包括刊登)授权南京邮电大学研究生部办理。研究生签名:!也导师签名:幽日期:竺二兰』三
南京邮电大学硕士研究生学位论文第一章绪论1.1语音转换的概念第一章绪论语音转换(VC,voiceconversion或VT,voicetransformation)是指改变一个人(源说话人,sourcespeaker)的语音特征,使之具有另外一个说话人(目标说话人,targetspeaker)的语音个性特征【1“8】。它是一项改变说话人语音特征的技术,可以将一个人的语音模式转换为另外一个人的语音模式【9】。语音包含有很多重要的信息,其中最主要的就是语音的语义信息,其次是语音的个性化信息。语音转换就是要保持源说话人语音的语义信息不变,而改变其个性化信息,使源说话人的语音听起来像是目标说话人的语音。语音转换包括同语种说话人的语音转换和跨语种说话人的语音转换[io】。同语种说话人语音转换是指源说话人和目标说话人说的是同一种语言,而跨语种说话人语音转换指的是源说话人和目标说话人说的不是同一种语言,比如源说话人A说的是中文,而目标说话人B说的是英文,但是B不会说中文,此时进行语音转换就要将A说的中文转换成像是B说的,让不会说中文的B也可以说出中文。1.2语音转换的意义语音转换是目前语音研究领域比较新的一个分支,它的研究涉及到语音信号处理的很多领域,如语音分析、语音编码、语音合成等,它的研究需要借鉴这些领域的一些知识,同时也推动了这些领域的发展。研究语音转换的意义有很多,具体有以下几个方面:(1)在文语(1vrS,text.to.text)转换系统中的应用。现有的文语转换系统主要有共振峰合成(formantsynthesis)、基音同步叠接相加合成(PSOLA,pitchsynchronousoverlapadd)和基于数据库的合成方法等。然而无论是用哪种方法,最终合成的语音的个性特征都是单一的,缺乏个性化的特征,如果在合成语音的时候经过语音转换的处理,那么合成的语音则增加了说话人的个性特征。例如,文语转换后合成的语音可以根据需要转换成听者想听的某个特定的说话人的语音,这样不仅增加了个性化的特征,还可以扩大其使用范围,使其应用更加广泛。一(2)在电影配音中的应用。通常我们看到的电影,特别是~些翻译过来的外国电影1
南京邮r乜大学硕士研究生学位论文第一章绪论中,我们听到的声音都是配音演员的声音,而不是演员本人的声音,常常由于配音演员不是演员,使得配音不能反映出原演员的个性特征,配音效果不理想,如果将配音演员的声音经过语音转换,使之具有原演员的个性特征后再输出,那么配音的效果就会好很多。(3)用于恢复受损的声音。在医学领域,语音转换可以提高一些声道受损的人的语音质量。(4)语音转换可用于单个说话人的语音质量的控制,可以纠正在TTS系统中录音人由于长时间录音而导致录音质量的变化。语音转换的研究有很多理论和实践方面的应用,它还可以用于保密通信中语音个性化的伪装等等。1.3语音转换的研究现状及其测试方法近来二十几年,语音学研究者加大了对语音的研究,特别是对语音转换的研究,取得了很多的成果。初敏等人【1】采用基于TD.PSOLA的方法对男女生的语音进行转换,中科院声学刘立【1】采用矢量量化的方法进行语音转换,王聪修【11基于嗓音源模型进行语音转换等等,所有这些所取得的成就都是国内语音学研究者付出努力的结果。目前对语音转换的结果进行测试主要有客观测试和主观测试。下面将对其客观测试和主观测试分别进行介绍。1.客观测试客观测试主要建立在频谱特征参数的基础上,主要有频谱失真测度和说话人辨识等方法。频谱失真测度主要有绝对的频谱失真测度和相对的频谱失真测度。绝对的频谱失真测度就是源语音或目标语音与转换后的语音间的频谱失真相关的程度。具体可以表示为:D=寺∑d(允,此)(1—1)1YnM其中,夕表示转换后的语音,Y表示源语音或目标语音。相对的频谱失真测度是采用与源语音、目标语音和转换后的语音间的平均频谱失真测度相关的方法,具体可以表示为:2
第一章绪论D-=囊1Nd(允,儿)J(允,%)(1-2)其中,夕表示转换后的语音,Y表示目标语音,x表示源语音。d(夕,y)表示转换后的语音和目标语音之间的某种频谱失真测度,d(夕,x)表示转换后的语音和源语音之间的某种频谱失真测度,D是转换后的语音与目标语音的谱距离和转换后的语音与源语音的谱距离的比值,比值越小表示转换后的语音越接近于目标语音。说话人辨识是将转换后的语音作为说话人识别的输入,来确定转换后的语音和目标语音的相似度。这种测试方法也可以用数学的形式表示出来:O。t=log黜=logP(m)-logP(m)(1-3)其中,五和五分别表示源说话人和目标说话人所用的模型,X是观察向量。见越大表示转换后的语音越接近于目标语音。2.主观测试主观测试主要是人耳对语音的感觉来进行的,主要基于语音的可懂度、自然度和说话人识别度。常用的主观测试方法有ABX测试方法和MOS分法。ABX测试方法主要用来区分转换后的语音是更接近于源语音还是更接近于目标语音。在ABX测试方法中,A代表源说话人的语音,B代表目标说话人的语音,X代表转换后的语音。用ABX方法进行测试时要求参与测试的人员分别听一遍具有相同语音内容的源语音、目标语音和转换后的语音,然后再判决转换后的语音是更接近于源语音还是目标语音,最后统计所有参与测试人员的判决结果,计算出听起来像目标语音的百分比。MOS分法是平均意见得分(MeanOpinionScores)法,它主要分为5个等级,分数分别是1至,J5分,其中分数等级如表1.1所示。MOS分法主要是参与测试的人员根据听到的具有相同语音内容的源语音、目标语音和转换后的语音进行打分,分数越高表示转换后的语音越接近于目标语音。3
南京邮电大学硕士研究生学位论文第一章绪论表1.1MOSUl]分标准得分质量评价。一失真程度5优察觉不到失真4良稍微能察觉到失真但无不舒适感3由能察觉到失真且有不舒适感2差有不舒适感但能忍受1劣很不舒适且不能忍受1.4语音转换的性能状况及其存在的问题经过语音学研究者的努力,目前语音经过转换后都取得了一定的效果,转换后的语音无论是客观测试还是主观测试,都更接近于目标语音。经过很多学者的研究表明,女声到男声的语音转换比男声到女声的语音转换效果要好一些。如根据Arslan报道[2]的结果为,男声一>女声的转换为100%,男声一>男声的转换为78%(3个测听者判断2—3个句子):Kain和Macon研究与TTS相关联的VC系统,结果是男声一>女声的转换中97.5%的转换语音更加接近目标语音,男声一>男声的转换中52%的转换语音更加接近目标语音(20个测听者判断20个句子)等等。然而,虽然根据Arslan的报道男声一>女声的转换为100%,然而,它并不表示转换后的语音就和目标语音没有区别,它只能表示转换后的语音较源语音更接近于目标语1音,但是跟目标语音是有区别的,通常被认为是另外一个人的语音。虽然目前语音转换已经取得了很大的成果,但是从语音的发展领域看,语音转换仍然是一项不成熟的技术,它还有很多不足之处,如转换的精确度不高,转换后的语音和目标语音还有很大的差别;转换后的语音质量会有不同程度的下降等等,所有这些都是因为在分析语音信号或者提取语音参数时总是会丢失些信息,所以在语音质量方面,最终合成的语音较目标语音会有不同程度的下降,有时甚至下降会很严重。因此,在研究语音转换时,作者认为应该加强以下几个方面的研究:(1)加大对超音段转换的研究。目前对语音转换的研究一般都是基于音段信息的研究,对超音段的研究还很少,超音段的特征参数主要有音素的时长变化、语调等,这些特征参数主要描述了语音的韵律特征。加大对韵律特征参数的研究能更好地反映出语音的时变情况,说话人的语调等等。4