中国科学技术大学硕士学位论文基于卡尔曼滤波的语音增强算法研究姓名:章旭景申请学位级别:硕士专业:电路与系统指导教师:李辉20090501
摘要摘要在噪声环境下,许多语音处理系统的性能急剧下降,语音增强作为解决噪声污染的一种有效处理技术,一直是语音信号处理领域中的研究热点。语音增强的目的就是从带噪语音信号中尽可能提取出干净语音信号,提高信噪比,改善语音质量。卡尔曼滤波器是均方误差最小意义下的最优线性估计器,在非平稳条件下也可以保证最小均方误差滤波。基于卡尔曼滤波的语音增强算法结合了语音的生成模型,并且适合于非平稳噪声干扰。卜.的语音增强。本文对基于卡尔曼滤波的语音增强方法进行了深入研究,主要做了以下工作:1.研究了卡尔曼滤波理论中的预测器,滤波器和平滑器。研究了其在语音增强中的应用,实现了基于卡尔曼滤波的语音增强系统。2.针对传统的卡尔曼滤波语音增强后语音存在较多残留噪声问题,给出了一种基于语音谱似然比的噪声功率谱整形方法。最小统计值跟踪方法是常见的噪声功率谱估计方法之一,其估计值往往偏低,因此本文通过基于语音谱似然比的加权系数来修正其估计的噪声功率谱,在语音谱成分较弱的地方,增加噪声功率谱的估计,使得卡尔曼滤波后的语音中残留噪声减少,并且听觉上更加清晰自然。3.结合子带分解技术,本文研究了。‘种基于子带卡尔曼滤波的语音增强方法。实验结果表明,在提高语音质量的同时,子带分解降低了卡尔曼滤波的模型阶数,大大地减少了语音增强系统的计算量,更容易实时实现。关键词:语音增强卡尔曼滤波子带分解噪声功率谱整形
AbstractAbstractInthenoiseenViroment,theperf.onnanceofmostspeechprocessingsystemsdeterioratessha巾ly.Asasolutiontonoisepollution,speechenhancementisanefI.ectiveteclmology,andhasbeenbeingtheresearchfbcusofthespeechsignalprocessingallthetime.Thepu巾oseofspeechenhancementistoextractcleanspeechsignalfromthenoisyspeechasf打aspossible,toimproVesignaltonoiseratio(SNR)andspeechquality.Kalmannlterisauloptimallinearestimatorintheminimummeansquaree玎orcriterion,withnon—stationa巧signalprocessingcapacity.Speechenhancementbased0nkalmanfiltering,integratingwithspeechgenerationmodel,canbeappliedinnon·stationarynoiseenVironnlent.Inthisthesis,speechenhancemembasedonKalmanfilteringisin-depthstudiedandthef.oUowingworkhasbeendone:1.Predictor,filterandsmootherinkalamnfilteringtheoryandtheirapplicationinspeechenhancementtechnologyisstudied.Aspeechenhancementsystembasedonkalmanfilteringisrealised.2.Thereismuchmuchresidualnoiseintheenhancedspeechbasedonkalmanfiltering,thethesisintroducesamethodtoreshapenoisepowerspectmmthroughspeechspectrallikelihoodratio.Minimumstatisticaltrackingisacommonnoisepowerspectmmestimationmethod,buttheestimatedValueisoRenlow.Sothethesisimroducesametllodtoreshapenoisepowerspectrumth.oughspeechspectrallikelihoodratio.Itincreasestheestimationofnoisepowerspectmminthef-requencycomponentswherespeechisweal(.Combinedwiththismethod,thespeechenhancementbasedonKalman6lteringcanreduceresidualnoisesignificaIltly,andmakeenhancedspeechcleareI‘andmorenatural.3.Byusingthesubbanddecompositiontechniques,weproposeasubbandspeechenhancementmethodbasedonKalman行lter.ExperimentsresultsshowthatthismethodimproVesthequalityoftheenhancedspeechandalsolargelyreducesthecomputationconlplexityduetothelowordersofmodelsinsubbands,andthusitcanbeeasilyrealizedreaItime.Keywords:speechenhancement,kalmaJlnltering,subbanddecomposion,reshapingofnoisesDectral
中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均己在论文中作了明确的说明。…名:缸丑磐嗍:产中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和lU子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。口公开口保密(——年)作者签名:签字日期:扯班导师签名:签字日期:
第一章绪论第一章绪论1.1研究背景随着信息技术的快速发展,语音已成为信息时代最重要的信息交流工具之一,但在实际环境中,语音总会不同程度地受到噪声干扰,这些噪声包括从周围环境、传输媒质中引入的噪声、电气设备的噪声以及其他说话人的干扰等等。在严重情况下,语音将会完全淹没到噪声中,无法辨别原始语义。语音质量的下降会使许多语音处理系统的性能急剧恶化。比如,安装在汽车、飞机、坦克和舰船上的电话,街道、机场上的公用电话,战场上的电台等常常受到很强的背景噪声干扰,严重影响了通话质量;语音识别系统在实验室环境中可取得相当好的效果,但在噪声环境中,尤其是在强噪声环境中使用时,系统的识别率将受到严重的影响;低速语音编码同样也会受到噪声的影响,由于语音生成模型是低速率语音编码的基础,当语音受到严重干扰时,提取的模型参数将很不准确,重建的语音质量急剧恶化。此时采用适当的语音增强技术进行预处理,将能有效地改善系统性能。因此,语音增强技术在高速发展的信息时代有重要价值。多年以来,它一直是国内外许多大学和研究机构的一个研究热点。目前,语音增强已在语音处理系统、广播通信、多媒体技术、智能家电,安全监听等领域内得到了越来越广泛的应用。一般情况下,语音信号和外界环境噪声信号都是随机信号,要完全消除噪声是不现实的,那么语音增强目的就是从含有背景噪声的语音中尽可能地提取出干净语音。1.2语音增强基础知识语音增强是语音信号处理的重要方向之一,它涉及到很多学科,不仅与语音信号数字处理理论有关,而且还可能涉及到数理统计、神经生理学和语音学等学科。此外,语音增强所要面临的噪声来源众多,常见的如汽车、街道、机场、工厂车间、人声嘈杂的公共场合等。因此要有效地增强语音,必须对语音的产生,语音信号的特征,噪声的特性、人耳的感知特性以及语音信号处理的一些基本方法有所了解。1.2.1语音信号的数字模型只有建立了语音信号的数字模型,才能有效地利用计算机定量地对语音信号进行模拟和分析处理。所以语音信号的数字模型是语音信号处理的基础。所谓建
第一章绪论立数字模型就是要寻求一种可以表达一定物理状态下量与量之间的数学表示。它的基础是人的发音器官的特点和语音产生的机理。语音产生的机理如图1.1所示,发声器官分为三部分:肺、喉和声道。在发声机制中,肺的作用相当于一个动力源,将气流输送至喉部。喉将来自肺部的气流调制为周期脉冲或类似随机噪声的激励声源,并送入声道。声道包括口腔、鼻腔和咽腔,它们对声源的频谱进行整形而产生不同音色的声音。声源还可能由声道的收缩和内壁产生,这一作用发生在声道内部,在图1.1中没有表示,这样,除随机噪声和周期性声源之外还产生一个冲击声源。我们在此对激励源做了理想化处理,从语音产生机理的解剖学和生理学意义上来说,不会产生出完美的周期性、冲击性或噪声般的声源。声源经声道润色频谱后,在嘴唇处的气压变化就形成了可传播的声波,被人感知为语剖¨。图1.1语音产生机理的简化图解声迮喉肺人们在深入研究人发音器官的特点和语音产生机理的基础上,建立了一种离散时域的语音信号生成模型【2】(图1.2)。在这种模型中,语音信号被看成是线性时变系统在随机噪声或准周期脉冲序列激励下的输出。在图1.2中,完整的语音信号的数学模型可以用三个子模型:激励模型、声道模型和辐射模型的串联来表示。激励模型:激励模型可分为清音激励和浊音激励,按照浊音/清音开关所处的位置来决定产生的语音是浊音还是清音。在浊音情况下,激励信号由一个周期脉冲发生器产生。在清音情况下,激励信号由一个随机噪声发生器产生。这种简单的把激励分为浊音和清音两种情况是不全面的。但该方法由于其简单并且性能优越而被广泛地采用。声道模型:目前经常用到的声道模型是共振峰模型。一般人的声道长度约为17cm,可以计算出在500Hz、1500Hz、2500Hz、3500Hz、4500Hz附近有5个共振峰‘21。每个共振峰对于系统函数的一个极点,其系统函数矿(z)可用下面的表达:1y(z)=—i万一(1.1)l一乙矧嚷z“2近怫畦
第一章绪论辐射模型:声道的终端为口和唇,从声道输出的是速度波,而语音信号是声压波,二者的比称为辐射阻抗。即:尺(z)=R(1一l儿)。在这个模型中,激励源参数和声道模型参数都是随时间变化的。由于发声器官的惯性使这些参数的变化速度受到限制。对于声道参数,在10~30ms的时间间隔内,可以认为它们近似保持不变。对于激励源参数,大部分情况下这一结论也是『F确的。这种离散时问模型有时也称为“激励源/滤波器”模型。即在短时时阳J内,语音信号是由激励信号和传输函数H(z)线性系统而产生输出的。Ⅳ(z)是由激励模型、基音频率图1.2语音信号产生的离散时域模型语音波形信号纠n}1.2.2语音和噪声特性这里简单地介绍一下在语音增强处理时涉及到的一些语音和噪声的特性:1.语音特性上述的发声系统在发不同声音时的生理机构不同,决定了语音信号的非平稳性,并且是一种随机信号。但由于其生理器官变化的缓慢性,在一段很短的时『白J内(10~30ms)内,可以假设其声道及其输入是平稳的。这意味着在这段时间内语音信号的短时谱的相对稳定性。利用这种特性,应用平稳的随机过程来分析和处理语音信号,构成了语音信号分析处理的基础。在上述数学模型中,根据激励源可以简单地把语音分为浊音和清音两类。这两类在激励上的明显差异,导致在语音信号特性上也有明显区别。浊音在时域上呈现出明显的周期性,在频域上有共振峰结构,而且能量大部分集中在较低频段内。清音则完全不同,它没有明显的时域和频域特征,类似于白噪声。在语音增强中,可以利用浊音的周期性特性,提取语音分量或者抑制非语音信号。同时,作为一个随机过程,语音信号也可以利用许多统计分析特征进行分析。但由于语音信号非平稳、非遍历,因此长时间时域统计特性对语音增强算法的意义不大。语音的短时谱幅度统计特征是时变的,只有当分析帧长趋于无穷大时,
第一章绪论才近似具有高斯分布。在高斯模型的假设中,认为傅旱叶展丌系数是独立的高斯随机变量,均值为零,而方差是时变的。在有限帧长时这种高斯模型只是一种近似的描述,可以在宽带噪声污染的语音增强中应用【3】。2.噪声特性噪声通常可以定义为通信、测量以及其他信号处理过程中的无用信号成分。由于环境的复杂性,噪声可以分为加性噪声和非加性噪声(如传输系统的电路噪声)。考虑到加性噪声更普遍且易于分析问题,并且对于某些非加性噪声,可以通过变换转变为加性噪声。因此,为简化讨论,本文主要分析加性噪声的干扰。由于噪声来源众多,随应用场合而异,特性也各不相同,根据噪声的时域或频域特性,可以将噪声大致归为如下几类I列:(1)周期性噪声其特点是频谱上有许多离散的线谱,主要来源于发动机等周期运转的机械设备。显然这种噪声可以用梳状滤波器予以抑制,但实际信号受多种因素的影响,线谱分量通常转变为窄带谱结构,且这些窄带谱往往是时变的,位置也不固定。必须采用自适应滤波的方法才有可能区分这些噪声分量。(2)脉冲噪声脉冲噪声表现为时域波形中突然出现的窄脉冲,主要来源于爆炸、撞击、放电及突发性干扰。消除脉冲噪声通常在时域内进行,其过程如下:根据带噪语音信号幅度的平均值确定阈值,当信号幅度超过这一阈值时判为脉冲噪声,然后对信号进行适当的衰减,就可消除噪声分量。(3)宽带噪声宽带噪声的来源很多,热噪声、气流噪声及各种随机噪声源,量化噪声都可视为宽带噪声。宽带噪声与语音信号在时域和频域上完全重叠,只有在无声期间,噪声分量才单独存在。因而消除这种噪声比较困难。对于平稳的高斯噪声,通常可以认为是高斯白噪声。而不具有白色频谱的噪声,可以进行白化处理或者采取特殊的处理方法,如本文后面介绍的建模的方法。(4)同声道语音干扰在实际生活中经常会遇到多人同时说话的情况,此时不需要的语音就形成了同声道干扰。区别干扰噪声和有用语音的基本方法是利用它们的基音差别。考虑到一般情况下两种语音的基音不同也不成整数倍,这样可以用梳状滤波器提取基音的各次谐波,再恢复出有用信号。1.2.3人耳的听觉感知特性语音感知对语音增强研究有重要作用。这是因为语音增强效果的最终度量是人的主观感受。语音感知问题涉及到生理学、心理学、声学和语音学等诸多领域,4