logo资料库

论文研究-基于改进EMD的语音增强方法研究 .pdf

第1页 / 共9页
第2页 / 共9页
第3页 / 共9页
第4页 / 共9页
第5页 / 共9页
第6页 / 共9页
第7页 / 共9页
第8页 / 共9页
资料共9页,剩余部分请下载后查看
中国科技论文在线 http://www.paper.edu.cn 基于改进 EMD 的语音增强方法研究# 卢志茂1,孙美玲1,刘柏森1,2,金辉1,申丽然1* (1. 哈尔滨工程大学信息与通信工程学院,哈尔滨,150001; 2. 黑龙江工程学院电子工程系,哈尔滨 150050) 摘要:EMMD 分解后的信号虽然解决了 EMD 中存在的端点效应问题,但是存在音乐噪声,因 此,本文提出一种基于 EMMD/MMSE 的语音增强方法。该算法是利用 MMSE 来解决经过 EMMD 处理的信号中含有的音乐噪声的问题,以便得到很好的语音增强效果。通过实验对增强前后 语音信号的信噪比分析、以及主观判断表明,基于 EMMD/MMSE 的语音增强方法的在提高语音 信号的信噪比、可懂度方面优于传统的增强方法。 关键词:信号处理;语音增强;极值域均值模式分解;最小均方误差;信噪比 中图分类号:TP391 文献标识码:A Research of Speech Enhancement in low SNR Based on Lu Zhimao1, Sun Meiling1, Liu Baisen1,2, Jin Hui1, Shen Liran1 (1. Information and Communication Engineering College, Harbin Engineering University, EMMD/MMSE Harbin 150001; 2. Department of Electronic Engineering, Heilongjiang Institute of Technology, Harbin 150050) Abstract: EMMD can solve the endpoint effect problem exits in EMD, but existing music noise, in the signal. Therefore, in this paper proposes a speech enhancement method based on EMMD/MMSE. This algorithm make full use of the characteristics that MMSE can solve the music noise issues exits in EMMD signal processing, so as to obtain good speech enhancement performance. Through doing experiments, comparing the original and enhancement SNR, and subjective judgment, we reach a conclusion that the speech enhancement based on EMMD/MMSE is superior to the traditional enhancement algorithm in improving the speech signal SNR and intelligibility. Keywords:Signal Processing; Speech Enhancement; Extremum Field Mean Mode Decomposition; Minimum Mean Square Error; Signal to Noise Ratio 0 引言 语音信号是一种典型的非平稳信号,具有很强的时变特性[1]。实际环境中会受到噪声的 干扰,使得语音处理系统不能正常工作,因此抑制背景噪声、改善输出信噪比、提高语音通 信质量这一要求使得语音增强具有重要的应用价值。语音增强是解决语音信号中噪声污染的 一种有效方法,它的主要目标是从带噪语音信号中提取尽可能纯净的语音[2]。 目前常用的语音增强方法有,谱减法[2-3]、小波变换法[4]、子空间法[5]、最小均方误差估 计法[6]、卡尔曼滤波法[7]、Hilbert-Huang 变换的方法[8]以及他们的改进算法等。但是这些方 法仍存在一些问题,尤其是在低信噪比的条件下。在 0dB 的条件下,信噪比提高 2.2380dB。 鉴于以上方法在低信噪比下不能得到理想的增强效果。文献[9]给出一种 Hilbert-Huang 变换和谱减法相结合的方法,但是,Hilbert-Huang 变换中的 EMD 部分存在端点效应问题, 会对增强效果产生很严重的影响,因此,本文研究了其改进算法 EMMD,同时,又提出了 将 EMMD 和 MMSE 相结合的语音增强方法,期望在低信噪比下,取得更好的噪声抑制效果, 提高输出信噪比。 基金项目:国家自然科学基金(项目编号: No.60975042, No. 60803087) ,国家教育部博士点专项基金(No. 20070217043). 作者简介:卢志茂,(1972-),男,教授,主要研究方向:模式识别、机器视觉听觉、数据挖掘. E-mail: lzm@hrbeu.edu.cn - 1 -
中国科技论文在线 1 EMMD 方法简介 http://www.paper.edu.cn 经验模态分解(Empirical Mode Decomposition, EMD)是由 Huang 等提出的一种新的非平 稳信号分析处理方法[2], EMD 方法是将复杂的信号分解成若干频率由高到低的固有模态函 数(Intrinsic Mode Function, IMF)之和[9],其本质是以信号特征尺度为度量,将非平稳信号分 解为不同频率的 IMF 及趋势项之和。由于 EMD 方法是依据信号本身的信息进行的分解, 很 好地突出了信号的局部特征,因此适合处理非线性、非平稳信号[2]。 然而在实际应用中,EMD 方法有很多不足,如对信号进行 EMD 分解时,仅利用信号 的极值点信息,容易产生端点效应。经研究发现极值域均值模式分解 (Extremum Field Mean Mode Decomposition, EMMD)在求取信号的均值时,能够充分利用输入信号的所有信息,可 以有效的改善 EMD 中的端点效应问题。 极值域均值分解方法(Extremum Field Mean Mode Decomposition, EMMD),最初是在 2002 年由盖强提出的,在对信号进行分解时是以极值点间的时间间隔作为局部时间特征尺 度,无需区分极大值和极小值,在每次分解时仅仅使用了一次三次样条插值进行曲线拟合, 从而提高了计算速度。而且在求信号局部均值时不仅用了信号的极值点的信息,而且还包括 了极值点间所有的信号数据,其原理与积分中值定理相吻合,因而更能代表信号的局部均值。 在边界点局部中值的求取中,根据波形相关的特性,用信号中与边界三角波形最相匹配的波 形来预测边界点值,使求取的边界点局部中值的精度大为提高[10]。 设输入的带噪的语音信号为 x(t)=s(t)+n(t),其中:s(t)为纯净的语音信号,n(t)为噪声。 (1)求取 x(t)的所有极值点,利用积分中值定理求取信号的均值 可以通过下式可以得到 ti、ti+1 时刻极值点间的局部均值 )(1 tm 。 tm ζ i ( ) = 1 t +− i 1 t i 1 + t 1 t i ∑+= t = t i tx )( 一般信号数据在极值点间是均匀变化的,因此我们可以将信号极值点的中点视为其均值 位置,即 tζ = t tm + ( 2 i i i t ( i t 1++ i 2/) ,由此可得: 1 + ) = t 1 t +− i 1 t i 1 + 1 t i ∑+= t = t i tx )( 同理可以得到,ti+1 与 ti+2 时刻极值点间的局部均值 mi+1 为: tm ( tx )( = 1 + ) t = + 2 t t i i 2 i i 1 + 1 t − t i + 2 ∑+ t = t i 1 + + 1 i 1 + + 2 这样就可以利用 2 个相邻局部均值 mi、mi+1 做加权处理即可得到 ti+1 处极值点的局部均 值 m(ti+1), tm ( i 1 + ) = tmth ( )( i i i t + 2 i 1 + ) + i 1 + t i + 2 ) + 2 i i ) 1 + 1 + tmth ( ( t − − i + t 1) = t 2 i i i + 1 + = ; t i t th ( 其中: th )( i t t i + )2/) )2/) − − 2 为 第 i 个 极 值 点 和 第 i+1 个 极 值 点 信 号 数 据 的 局 部 均 值 , tm (( i t (( (2)将原始数据序列 x(t)减去 m1(t)后即可得到一个去掉低频的新数据序列 h1(t): h1(t)= 为第 i+1 个极值点和第 i+2 个极值点信号数据的局部均值。 1++ i i t + i i 1 + t 1 + t + + 2 2 i i i m i 1 + - 2 -
中国科技论文在线 x(t)- m1(t) http://www.paper.edu.cn (3)如果 h1(t)满足 IMF 的 2 个条件,则 h1(t)即为第一个 IMF,一般 h1(t)并不满足条件, 此时将 h1(t)当作原始信号,重复上述步骤,重复 K 次直到得到满足调减的 IMF 为止: h1k(t)= h1(k-1)(t)- m1k(t) (4)将 h1k(t)作为第一个 IMF 分量即 c1= h1k,c1(t)是从原始数据中处理得到的第一个 IMF 分量。c1(t)为原始信号 x(t)中最短的周期分量,即频率最高的分量。 (5)将 c1(t)从原始信号 x(t)中分离出来,得到剩余分量 r1(t): r1(t)= x(t)- c1(t) (6)将 r1(t)作为新的原信号重复以上过程 n 次直到所有的 IMF 分量都被从原始信号中 分离出来为止,得到如下结果: r1(t)- c2(t)= r2(t)…rn-1(t)- cn(t)= rn(t) (7)当 cn(t)或者 rn(t)小于预定的误差;或者 rn(t)为不可能再从中提取 IMF 分量的单调 函数时,停止筛分过程,最后得出: tx )( n = ∑ i 1 = tc )( i + tr )( n 为了验证 EMMD 在处理非线性、非平稳信号方面的有效性,设实验信号为如下两个不 同频率的信号的叠加,即: x(t)=sin[2π×20×t]+sin[2π×10×t] 其中令 x1=sin[2π×20×t], x2=sin[2π×10×t]。其波形图如图 1 所示: 图 1 原始输入信号 Fig. 1 The original signal 将输入的信号分别进行 EMD 和 EMMD 分解,可以得到三个 IMF 分量 IMF1、IMF2、 IMF3,其中 IMF1、IMF2 分别与原始信号的两个分量 x1、x2 相对应,IMF3 为残余分量。 将分解后的分量与原始输入信号进行对比,得到的实验结果分别如图 2 所示。其中红色线表 示原始输入信号的 x1 和 x2 分量,蓝色线、绿色线分别表示经过 EMD 和 EMMD 处理之后 的 IMF1 和 IMF2 分量。 图 3 为输入信号 x2 与经过 EMD 和 EMMD 处理后的 IMF2 分量在 0.35-0.5 时刻的放大 后的图形。从图 2 和图 3 我们可以清楚地看到 EMMD 可以更好地抑制信号末尾处的端点效 应,更加接近原始的输入信号。 - 3 -
中国科技论文在线 http://www.paper.edu.cn (a) 输入信号 x1 与 imf1 对比图 Fig. a The input signal x1 contrast with IMF1 (b) 输入信号 x2 与 imf2 对比图 Fig. b The input signal x2 contrast with IMF2 (c) 残余分量 Fig. c The residual 图 2 分解结果对比图 Fig. 2 he Decomposition results 图 3 部分 imf2 放大后的图形 Fig. 3 The amplification of the part of IMF2 由上面分析我们可以得到如下结论:经过 EMMD 分解处理后的信号可以有效的抑制 EMD 中存在的端点效应问题。然而在实际将 EMMD 应用于语音增强之中的时候,我们发 现其还存在音乐噪声的问题,因此本文拟采用 MMSE 的方法来解决这一问题。 2 MMSE 方法简介 最小均方误差算法(Minimum Mean Square Error,MMSE)最初是在 1984 年由 Y.Ephrain 和 D.Malah 提出[6]。“音乐噪声”问题是许多语音增强算法都会出现的问题, MMSE 算法 能有效的去除增强语音中的“音乐噪声”,因为在求取控制增益的一个非常重要的量先验信 噪比时,使用了非线性的平滑过程。MMSE 语音增强算法在语音可懂度和降噪比之间取得 了较好的折衷,适用的信噪比的范围也较广。 对于带噪信号 y(n)=s(n)+d(n)。其中 s(n)为纯净语音信号,d(n)为平稳、加性、高斯噪声。 并且 s(n)和 d(n)是相互独立的。设 、Dk、分别代表 y(n)、 s(n)、d(n)进行 FFT 变换后的第 K 个频谱分量。MMSE 语音增强的目的就是得到信号幅度的 估计值 ˆ exp( exp( jα k S 、 jθ k R k A k Y k = = ) ) k kA ,并满足估计误差的均方值最小[11]。即: n N = ≤ ≤ 0 min{( ny )}( agr |) − A k A k A 1 − - 4 -
中国科技论文在线 http://www.paper.edu.cn 先验信噪比 kξ 和后验信噪比 kγ 定义为: ξ = k γ = k n E S k {| ( ) | } 2 E D k {| ( ) | } 2 n Y k ( ) | | 2 n E D k {| ( ) | } 2 n 先验信噪比 kξ 对最终增益值的影响很大,而在实际增益过程中, kξ 是未知的,必须先 进行估计。 λξ = s k k ( ) = λ n k ( ) E S k {| ( ) | } 2 n E D k {| 2 ( ) | } n 其中 λn(k)可以在无语音时通 过对噪声的统计求平均获得。对于 λs(k),由于语音是时变的,必须在每一帧重新进行估计。 对于 kξ 的估计,在本次试验中我们采用判决导引法则(Decision Directed Approach)来获得。 其估计式为: mA m ) ( 2 α ξ = k k 0 1α≤ < 增益函数可以通过下式计算得到: ]0,1) − 1( −+ max[ /)1 ) α λ n γ k m − ( ( G k Γ= )5.1( k V γ k M ;1;5.0( − V − ) k Γ= )5.1( k V γ k exp( − V k 2 ) ⋅ 1[( + VIV ( k 2 ) 0 k ) + k 1 )] VIV ( k 2 / 2π = 其中,Γ(.)是伽马(Gamma)函数, 。I0、I1 分别表示零阶和一阶贝 塞尔(Bessel)函数,M(a,b,c)为合流超几何函数(Confluent Hypergeometric Function),可以 利用级数求和计算, Γ (1.5) cbaM ,( 1), += a b c !1 + aa ( bb ( + + c )1 2 !2)1 + aa ( bb ( + + a )(1 b )(1 + + c )2 3 !3)2 + Vk 表示语音信号的第 K 个频谱分量的能量均值,定义如下: ⋅ γ k = A k 1( = ξ k ) + ξ k RG ⋅ k Γ= )5.1( k kV 由 A 得 Ak 的估计值为: k M ;1;5.0( − V − ) ⋅ R k k k V γ k Γ= )5.1( k V γ k exp( − V k 2 ) ⋅ 1[( + VIV ( k 2 ) 0 k )] ⋅ R k ) + VIV ( k 2 1 k 3 基于 EMMD/MMSE 的语音增强方法 语音增强的一个主要目标是从带噪语音信号中提取尽可能纯净的语音。EMMD 是一种 非平稳信号分析处理方法。它可以将复杂的信号分解成有限个固有模态函数(Intrinsic Mode Function, IMF)之和的形式。由于其在分解过程中是以信号本身的特征尺度为度量[12],因此 - 5 -
中国科技论文在线 http://www.paper.edu.cn 可以防止在对信号进行处理过程中多余噪声的产生,而且能够消除局部数据中隐含的直流分 量。这有限个固有模态能从高频到低频表征出原信号所有的信息和特征。通过有用信号和噪 声信号的频率的不同选取部分 IMF 求和,并使用 MMSE 算法对其进行后续处理以便得到效 果更好的增强后的语音信号。其具体步骤如下: (1)带噪信号进行 EMMD 分解得到各个 IMF 分量和残余分量: (2)由于噪声主要集中在信号的高频部分,所以利用前几个高频 IMF 分量进行噪声的 能量谱估计。 (3)利用 MMSE 对信号进行去噪处理。 (4)得到去噪后的信号,计算信号的输出信噪比。 4 实验分析 在测试中,本文选用 863 语音库中的信号作为目标语音,采样率为 16000Hz,16 位量 化。采用 Noise92 噪声库中的白噪声作为干扰噪声。采用信噪比的方法对带噪语音和增强后 的语音进行对比. 输入信噪比: SNR in = 10 log 10 ∑ n 输出信噪比: ny )( 2 ∑ n ny )(( − ns ( )) 2 SNR out = 10 log 10 ∑ n ns )( 2 ∑ n ns )(( ∧ ns ( 2 )) − (1)信噪比为 0dB 时,谱减法、EMD 法、EMMD 法、和本文方法语音增强结果如下: 图 4 带噪语音信号(0dB) Fig.4 The signal contains noise (0dB) 图 5 谱减法语音增强结果 Fig.5 The speech enhancement results of spectral subtraction - 6 -
中国科技论文在线 http://www.paper.edu.cn 图 8 EMMD/MMSE 方法的语音增强结果 Fig.8 The speech enhancement results of EMMD/MMSE (2)信噪比为-5dB 时,谱减法、EMD 法、EMMD 法、和本文方法语音增强结果如下: 图 6 EMD 法语音增强结果 Fig.6 The speech enhancement results of EMD 图 7 EMMD 方法的语音增强结果 Fig.7 The speech enhancement results of EMMD 图 9 带噪语音信号(-5dB) Fig.9 The signal contains noise (-5dB) 图 10 谱减法语音增强结果 Fig.10 The speech enhancement results of spectral subtraction 图 11 EMD 法语音增强结果 Fig.11 The speech enhancement results of EMD - 7 -
中国科技论文在线 http://www.paper.edu.cn 图 12 EMMD 方法的语音增强结果 Fig.12 The speech enhancement results of EMMD EMMD 6.2422 4.2915 5.2649 4.6568 4.4716 5.2602 5.1138 5.2118 5.1304 4.7604 5.04036 EMMD /MMSE 6.9624 5.5181 5.7633 8.1096 7.7745 7.2207 6.6273 6.6142 6.6299 9.1464 7.03664 图 13 EMMD/MMSE 方法的语音增强结果 Fig.13 The speech enhancement results of EMMD/MMSE 表 1 不同增强方法处理后实验结果(白噪声 0dB) Tab.1 The enhancement results of different method (white noise 0dB) SS Speech1 Speech2 Speech3 Speech4 Speech5 Speech6 Speech7 Speech8 Speech9 Speech10 Average 3.0831 3.2359 3.2094 2.2559 2.8346 2.5200 2.7556 2.7548 2.6116 2.3546 2.761558 EMD 5.6761 3.3509 5.1741 3.4212 2.3158 5.1183 4.7153 4.6933 5.0861 2.9373 4.24884 表 2 不同增强方法处理后实验结果(白噪声-5dB) SS EMD EMMD Tab.2 The enhancement results of different method (white noise -5dB) EMMD /MMSE 6.1093 5.3390 5.9023 5.3548 5.7172 5.0364 4.9080 5.2929 5.1132 7.1572 5.59303 2.6845 0.8149 1.7110 0.4908 0.0249 2.1472 1.6768 2.0836 1.6021 0.0413 1.32771 3.1432 1.5665 2.1200 1.4000 1.0017 2.4927 2.1490 2.3960 1.9352 1.7024 1.99067 2.0609 2.2489 2.2419 1.2908 1.6501 1.5538 1.8346 1.7758 1.6950 1.2592 1.7611 Speech1 Speech2 Speech3 Speech4 Speech5 Speech6 Speech7 Speech8 Speech9 Speech10 Average 表 1、表 2 给出了在输入信噪比为-5dB、0dB 的条件下,谱减法、EMD 法、EMMD 法、 和 EMMD/MMSE 方法的实验结果。通过对比可以得知,在低信噪比的条件下 EMMD 方法 好于 EMD 方法,确实在改善 EMD 方法中存在的端点效应的同时又提高了输出信噪比,但 是效果仍然还不尽人意,仍然存在音乐噪声的问题。通过进一步的理论分析和实验证明,本 文提出的算法可以拟补这一缺点,而且在提高信噪比方面也取得了较好的效果。 通过对比不同方法的实验结果图,可以看出本文提出算法能有效地抑制噪声,并且通过 主观试听,表明在低信噪比时语音的可懂度也得到了改善。 - 8 -
分享到:
收藏