2
2
第 36 卷 第 2 期
Vol. 36 No. 2
山 东 大 学 学 报 (自然科学版)
JOURNAL OF SHANDON G UN IV ERSIT Y
2001 年 6 月
J un. 2001
文章编号 :0559
7234 (2001) 02
0201
04
基于小波变换的语音增强去噪方法
江铭炎
(山东大学 电子工程系 ,山东 济南 250100)
郝 宇
(清华大学 计算机科学与技术系 ,北京 100084)
摘要 :将小波变换应用到语音识别系统中 ,提出了在语音信号预处理阶段基于小
波变换估计的维纳滤波算法 ,结合小波变换的阈值处理方法对语音信号进行去
噪处理 ,模拟实验表明该方法去噪效果较好.
关键词 :小波变换 ; 语音信号 ; 去噪
中图分类号 : TN912. 35 文献标识码 :B
语音识别系统中 ,语音信号预处理是对采集的语音进行必要的滤波和补偿 ,当话筒输
入带有较强的噪声时 ,语音识别效果不理想. 目前采用语音增强去噪的方法较多 ,从提高
语音信号的 SNR 考虑 :如谱相减 、谱映射 、基于小波变换的阈值处理等 ;从模型匹配环节
上考虑去噪方法主要有 :噪音屏蔽 、基于状态的滤波 、平均谱补偿 、HMM (隐含马尔可夫
模型) 分解 、并行模型组合等 , 1 单独使用以上任何一种方法 ,实际应用中都不能达到最
佳效果. 基于 Hand PC( HPC) 的语音识别系统有以下特点 :噪音的频谱较为固定 ;噪音接
近于白噪声 ;信噪比随语音有变化. 本实验对输入语音信号的采样值采用基于小波变换的
维纳滤波 ,使得滤波后的语音在统计意义上最接近原始干净的语音 ,效果较好.
1 小波变换用于信号滤波
设输入一维信号 f ( x) , f ( x) = A J 1
f ( x) = ∑
k ∈Z
CJ 1 kφJ 1 k 利用 Mallat 算法 , [2 ] ,将信号
J 2
f ( x) + ∑
分解 : f ( x) = A J 2
2 - J2 的成分 ,而 D jf ( x ) = ∑
先 验知识有效区分信号与噪声 , 滤波后形成新序列
Djf ( x) ,其中 A J 2
k ∈Z
1
j = J
+1
f ( x ) = ∑
k ∈Z
Ψjk ( x ) 是 f 的频率介于 2 - j 与 2 - ( j - 1) 的成分 ,然后 ,可根据
和
DJ ( J 1 + 1 ≤J ≤J 2 ) , 再按
CJ 2
CJ 2 kφJ 2 k ( x ) 是信号频率低于
08
24
收稿日期 :1999
基金项目 :山东大学青年自然科学基金项目.
作者简介 :江铭炎 (1964 - ) ,男 ,副教授 ,硕士 ,从事信息处理技术方面的研究与应用.
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
202 山 东 大 学 学 报 (自然科学版) 第 36 卷
Mallat 重建算法
f ( x) = A J 1
Cj - 1 = H
f ( x) = ∑
Cj + G
CJ 1 kφJ 1 k ( x) .
k ∈Z
D j , ( j = J 2 , J 2 - 1 , …J 1 + 1) , 得到去噪后的信号
2 维纳滤波与谱相减法
2
1 维纳滤波算法
设一组带噪语音信号为 y ( n) = s ( n) + d ( n) ,0 ≤ n ≤ N - 1 ,其中 s ( n) 为纯净语
音信号 , d ( n ) 为平衡加性高斯噪声 . y ( n ) 经 F F T变换后有 Y K = S K + N K , 由此可得
| Y K | 2 = | S K | 2 +| N K | 2 + S KN
K N K. 对于一帧内的短时平稳过程 ,有 | Y K | 2 = |
S K | 2 +λn ( k) ,其中λn ( k) 是无语音时的 | N K | 2 的统计平均值. 由于语音是一个近似的
s′( n) ]2 ] 最小 , 其
平稳过程 ,维纳滤波器对应于时域上的最小均方差准则使 E
中 s′( n) 是 s ( n) 的 估 值 ; 转 化 到 频 域 , 可 得 S′
K = G K Y K , 其 中 增 益 系 数 G K =
PS ( K) / PS ( K) +λn ( K) , PS ( K) 和λn ( K) 是语音和噪声的功率谱密度.
2
2 谱相减滤波算法
K + S
s ( n)
-
由 | Y K | 2 = | S K | 2 +λn ( k) 可得 : | S K | = | Y K | 2 - E[| N K | 2
1/ 2 = | Y K | 2
( K) ]1/α
- λn ( K) ]1/ 2 ;同样可得 | S K | 估值的推广形式 : | S K | = | Y K |
,这里
1/α
α,β是可调参数. 实际使用 | S K | = { FF T [ I FF T [| Y K |
] - β
( K) }
,
即倒谱相减法 , [3 ] 以实现语音和噪声更好的分离. HPC 系统的噪音幅度是随信号变化的 ,
通过采集无声段所得到的噪声幅度并不是当前实际的噪声幅度 , 因此对每一帧来说应重
新估计λn ( K) . 如果得到了信噪比 c ,则λn ( K) = λ0
[average (| Y K | 2) / average (λ0
( K) ) / c. 其中 average () 为平均值.
- βλα/ 2
I FF T [λα/ 2
n ( K)
α
α
n
n
n
3 利用小波变换确定语音信号的信噪比 c
对语音信号进行 DW T (离散小波变换) 分解后 , 噪音对大多数 DW T 系数都产生影
响 ,而原始语音信号的主要特征只存在于较低频率的子带中 , [4 ] 通过设定阈值 ,使较小的
系数为零 ,可较好地去除噪声. 但在低信噪比的情况下 ,这种方法效果不好. 我们采用对信
号的信噪比进行估计 ,利用小波变换域中经阈值处理前后的平均能量变化的比值来反映
当前信号的信噪比. 实验步骤如下 :
(1) 应用 Mallat 算法对原始语音信号进行离散小波变换 ,采用 4 阶 Daubeches 小波进
行分解 ,分解 5 层.
(2) 应 用 阈 值 函 数 y = sgn ( x) ( |
M A D [ ( w j , k) k / 0
γ = 1 , MAD 是各层正规化小波系数的中值. 设 d′
t) , 取 阈 值 t j , n = γ 2log ( n)
6745 对各尺度系数进行阈值处理 , [5 ] 其中γ为常数 ,对正交的小波基
j ( k) 为第 j 层第 k 个经过阈值处理的小
x | -
N
j
波参数 ,由 E′( j) = ∑
j 层的信噪比 cj = 1 - E′( j) / E ( j) .
[ d′
k = 1
j ( k) ]2 及 E ( j) = ∑
N
j
k = 1
[ dj ( k) ]2 , N j 为第 j 层的系数个数 ,则第
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第 2 期 江铭炎等 :基于小波变换的语音增强去噪方法
302
(3) 语音段和非语音段的检测
在语音段和非语音段中 ,噪音存在的方式不同. 对于非语音段 ,噪音的分布较为平均 ;
对于语音段 ,噪音能量主要集中在高频段 ,所以信噪比的确定需区别不同的情况 , 非语音
段的确定基于以下两个条件 :[4 ]
a) 小波域中最高频率子带的平均能量大于其它子带的能量 ;
b) 小波域中最低和最高频率子带的平均能量之比小于 0
9.
(4) 求信噪比
信噪比是基于离散小波变换的阈值求出的近似值 ,如果是非语音段 , 则 c = c1 ;如果
是语音段 ,则 c 为各个子带信噪比的平均 ,即 c =
J
1
J ∑
cj .
j = 1
(5) 信噪比值的修正
将滤波处理的帧的信噪比进行平滑 ,得信噪比的修正值 。设前一帧的信噪比为 c0 =
| S K | 2/ | Y K | 2 ,本帧通过离散小波变换得到的信噪比为 c1 , 则修正后 , c = ζc0 + (1 -
ζ) c1 ,ζ为可调参数 ,经试验取ζ = 0
2.
4 实验结果与分析
本文的方法主要应用在噪音近似于白噪
声 ,且有比较固定的频谱 ,信噪比动态变化较大
的情况. 针对基于 HPC 的语音识别系统噪音特
征 ,从 滤 波 效 果 角 度 进 行 算 法 检 验. 图 1 为
HPC 采样 i 的发音 ,图 2 为没有进行小波变换
估计的维纳滤波后的效果. 从图 2 中可看出 ,如
果不经过小波变换估计信噪比 ,而只单纯用维
纳滤波算法 ,虽有一定的语音增强效果 ,但并不
能令人满意 ;调整参数虽可使噪音大为减小 ,但
同时会引入较大的畸变. 图 3 采用基于小波变
换估计维纳滤波算法 ,在较少引入畸变的同时 ,
滤除噪音效果明显.
图 1 i 的采样波形图
Fig. 1 Wave after sampling to i
图 2 仅用维纳滤波后产生的波形图
Fig. 2 Wave after wiener filter without WT
图 3 经小波变换估计的维纳滤波后波形
Fig. 3 Wave after WT and wiener filter
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
402 山 东 大 学 学 报 (自然科学版) 第 36 卷
参考文献 :
1 Mark J F , Steve J Young. Robust Continuous Speech Recognition Using Parallel Model Combination ( PMC) .
IEEE
Trans. on Speech , Audio Processing. 1996 ;3 :352.
2 Mallat S. A theory of multiresolution signal decomposition : The wavelet transform. IEEE Trans. 1989 ; PAMI - 11 (7) :
674~693.
3 杨行峻 ,迟惠生. 语音信号数字处理 ,北京 :电子工业出版社 ,1995 ,398~400.
4
5 David L . Donoho. De - Noising by Soft - Thresholding. IEEE Trans. on IT. 1995 ;41 (3) :613~627.
Zhang Xiao Ping. Adaptive Denoising Based on SURE Risk. IEEE SP Letters. 1998 ;5 (10) :260.
A M ETHOD OF SPEECH EN HANCEM EN T AND
D E
NO ISIN G BASED ON WAV EL ET TRANSFORM
J IAN G Ming
yan1 , HAO Yu2
(1. Dept . of elect ronic engi neeri ng , S handong U niv . , Ji nan 250100 ,
S handong , Chi na ;2. Dept . of Com puter Science , Tsi nghua U niv . ,
Beiji ng 100084 , Chi na)
noising processing is given , with the soft
Abstract :The method based on the wavelet transform and the wiener filter in the speech sig
nal de
threshold method of the wavelet transform.
A better result is obtained with the method. Applieing in the Hand PC speech recognition
system.
Key words : wavelet
noising
transform ;speech
recognition ; de
© 1994-2008 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net