苎苎 Q :
CN 11—2223/N J Tsinghua Univ(Sci& Teeh),2008,Vo1.48, No.7
清 华 大 学 学 报 (自然 科 学 版 )2008年 第 48卷 第 7期
维普资讯 http://www.cqvip.com
18/41
1135—1139
. n m 0 0 h
.
L
ii
基 于 FDM 阵列 技术 的双 通道语 音增强方法
崔玮玮 , 曹 志 刚 , 苏泳涛
(1.清 华大 学 电子工程 系,北京 100084;2.清华大学 自动化系 ,北京 100084)
摘 要 :为 了抑制小 型语 音通信 设备 中的方 向性 噪声 干扰
问题 ,提 出一 种 双 通 道 的语 音 增 强 算 法 。该 方 法 基 于 一 阶 差
分 麦 克 风 (first—order differential microphone,FDM )阵 列 ,
并结合 单通道 的谱 增 强技 术 ,可 以同 时提 取 语音 和 噪声 估
计 ,并能够实 时地修 正噪声谱 。与现有 的双 通道语音增 强技
术相 比,该算 法可 以获得 2~6dB的输 出信噪 比增益 ,且 计
算量减少 了 2/3。仿 真结果表 明:该方法有效地 改善 了算法
的噪声消 除性能,且更适用 于实 时的语音增 强系统。
关 键 词 :语 音 增 强 ;一 阶差 分 麦克 风 阵 列 ;谱 减
中 图 分 类 号 :TN 912.35
文 献 标 识 码 :A
文 章 编 号 :1000—0054(2008)07—1135—05
FDM array-based dual channel speech
enhancem ent m ethod
根 据 采 用 麦克 风 数 目的 不 同 ,语 音 增 强 可 以分
~~;一 一~~一~一一一一一一 ~
为 单 通 道 的语 音 增 强 和 多 通 道 的语 音 增 强 。谱 减
法Ⅱ 及其改进方法 是普遍采用的单通道语 音增
强技 术 。这 些方 法 中 噪声 的估 计 是在 观测 信号 的静
音段 进行 的 ,因而都 有一 个基 本 假设 ,即 噪声是 平稳
的 。然而 ,实 际环 境 中既包 含平 稳 噪声 也包 含非 平稳
噪声 (方 向性 噪声 、混 响 等等 ),这 时单通 道语 音增 强
系统 就 显得 无能 为力 。麦 克风 阵列语 音增 强方 法是
为解 决 这 一 问题 提 出的 ,其 方 法包 括 了延 迟和 波 束
形成 (delay and sum beamforming,DSB) 、广 义
旁 瓣 抵 消 (generalized sidelobe canceller,GSC) 、
一 阶 差 分 麦 克 风 (first—order differential
microphone,FDM )阵列 以及 在 FDM 基 础 上 改
进 的 自适 应 零 陷 波 束 形 成 (adaptive null—forming,
ANF)技术 ]。前两 种 方 法 通 常需 要 大 数 量 的麦 克
风 才 能达 到 较 好 的 消 噪效 果 ,因 而 不适 用于 设 备
小 型化 的需 要 (如 PDA、手 机 、助 听器等 )。而 FDM
和 ANF 技术 在 实 现过 程 中 仅 需 2个 麦 克 风 ,阵列
结构 简单 小 巧 、易于 携带 ,比大 数 量麦 克风 组成 的大
尺 度 阵列 具 有更 广 泛 的 应 用领 域 ,因而 本 文 的研 究
是针 对双 麦 克风 的语 音增 强 技术 。需要 指 出的是 ,目
前普 遍采 用 的双通 道 语音 增 强方 法 (FDM 和 ANF)
都是 利 用 自适应 的方 法 来实现 噪声抵 消 的 。由于 在
算 法初 始 阶段 或者 噪声 方 向发 生变 化 时 ,自适 应滤
波 系数 要 经 历 一段 时 间才 能 收敛 ,因 而此 时 输 出 的
语 音会 含有 大量 的 噪声 ,影 响语 音增强 的效 果 。
针 对这 一 问题 ,本 文 提 出了 一种 基 于 双 麦克 风
的 实 时 的 噪声估 计 和 抵 消 方 法 ,它通 过 参 考 噪声 直
接估 计 出语 音通 道 中的 残 留 噪声 ,避 免 了 自适 应 方
法 在收 敛过 程 中语音 性 能下 降 的问题 。
语 音 增强 技 术 可 以提 高语 音 通 信 的质 量 ,也 可
以作 为预 处 理器 来 改 善 语 音识 别 系统 的稳 健 性 ,因
而它 在车载 电话 、手 持设 备 、助 听器 以及 视频会 议 等
方面得 到 了广泛 的 应用 。
收稿 日期 :2007—05—21
作者简介 :崔玮玮 (1981一),女 (汉 ),河南 ,博士研 究生 。
通讯 联系人 :曹志刚 ,教授 ,E—mail:czg~dee@tsinghua.edu.cn
维普资讯 http://www.cqvip.com
清 华 大 学 学 报 (自 然 科 学 版 )
l 双 通 道信 号模 型
在 2个 麦 克 风组 成 的 阵列 中 ,备 麦 克 风接 收 到
的信号 可 以表 示为 :
zl(£)一 S(£)^l(£)+ l(£),
z2(£)一 s(t)h2(£)+ 2(£).
(1)
(2)
Y2(z)≈ 2(£)一 l(£一 d/c).
(7)
由此 可见 ,Y。(£)中只包 含 了噪声项 ,而 Y。(£)通 道 既
包 含 了经 空 间波束增 强后 的语 音又包 含 了部分 残 留
●===
●
噪声 ,因而称 Y (£)为 噪声通 道 ,Y。(£)为语 音通道 。
2 算 法 描 述
其 中 :“*”表 示卷 积 运 算 ;S(£)为 期 望 语 音 信 号 ;
从双通 道信号 模 型可 以看 出 ,如果 利用 Y (£)通
^ (£)和 h (£)为 声源 到达 第 1个 麦 克风 和 第 2个麦
道 的参考 噪声来 抵消 Y。(£)通道 中的残 留噪声 ,就 可
克风 的脉 冲响应 ;墨(£)和 (£)( 一1,2)分别 为备麦
克风 接 收到的带 噪语 音和 噪声信 号 。在不考 虑声 学
进 一 步增强 语音 。然而 ,目前 的 噪声抵 消过程通 常 由
自适 应滤 波的方 法来 实现 ],该算 法的性 能会 受 到
反 射的条 件下 ,式 (1)和式 (2)可 以简化 为 :
z1(£)一 s(£)+ l(£),
z2(£)一 S(£一 .r)+ 2(£).
(3)
(4)
其 中 r为到达 时间差 。
对于 远 场 信号 ,声 音到 达 2个 麦 克 风 的传 播模
型如 图 1所 示 ,由图 可 知 ,r一 ( COS O)/c(c为声
速 )。
滤 波器 是 否收 敛 以及 收 敛速 度 快慢 等 因 素 的影 响 。
如 果 在 FDM 的 2个输 出信号 的基 础 上 ,利 用 Y (£)
通道 的参考 噪声来 直接 估计 Y。(£)中的残 留噪声 谱 ,
进 而 利 用单通 道 的谱增 强 方法 ,如 谱 减 法进行 语 音
增强 ,就 可 以避 免 自适 应算 法 在 收敛 过 程 中 的噪 声
泄漏 问题 ,这就 是本 文所提 出 的算法 的基本 思想 。该
算法 是 在频 域进 行 处 理 的 ,运 算 速 度快 且 可 以实 时
实 现 。
该算 法描 述如 下 。
对输 出信 号 式 (5)和 式 (7)做 短 时 Fourier变 换
可得 :
yl(£, )一
(£, ){1一 exp[一 j~od(1+ COS )/c]}+
Ⅳl( , )一 Ⅳ 2( ,w)exp(一 j~od/c), (8)
y2(£, )一 N 2(£, )一
Ⅳ (£,~o)exp(一 joJd/c).
(9)
其 中 : (£, )、yl(£, )、y2(£, )、Ⅳl(£, )和
N (£, )分 别 对 应 时 域 信 号 5(£)、Y。(£)、Y2(£)、
(£)和 (£)的 STFT。在 后面 的表 示中 ,为 了方 便
推导 将 (£, )省 去 。
y 和 y 的 幅度平 方可表 示 为 :
l y l 一 2{1一 COS[-~od(1+ COS )/c]}l l。+
lⅣ。l + lⅣ l + ysN+ yNN,
(1O)
ly l。一 lⅣ。l + lⅣ l 一
2Re[-NlⅣ exp(一 j /c)].
(11)
其 中 :Re[·]为取实 部 ,上 标“*”为复 共轭 ,且 :
图 1 声 波 传 播 到 达 2个 麦 克 风
FDM 阵列 。 的实现框 图如 图 2所 示 ,其 中 延迟
单 元 T=d/c,∑表 示求和 运算 。
图 2 FDM 阵 列 实 现 框 图
由图 2可得 ,FDM 的输 出信号 为 :
Yl(£)一 zl(£)一 z2(£一 7’)一
S(£)+ (£)一 s[£一 d(1+ COS )/c]一
Y sN —
, (£一 d/c),
(5)
ZReESN~{1一 exp[--- jcod(1+ COS )/c]}]一
Y2(£) 一 z2(£) 一 l(£一 丁)一
2Re{ Ⅳ [-exp(joJd/c)一 exp(一 j COS O/c)]},
S(£一 d COS O/c)+ 。(£)一 S(£一 d/c)一
(12)
(£一 d/c).
(6)
yNN一 一 2Re[-NlⅣ exp(jo.,d/c)]. (13)
在 FDM 阵列 中 ,期 望 声 源 一般 被 放 置 在 阵 列 的 沿
由 于 S(£)与 。(£)、 2(£)相 互 独 立 ,E[ys ]一
线方 向 ( ≈O。)[ ,故 式 (6)可 近似 为
0(EE·]表示 数学期 望 ),从而 有
维普资讯 http://www.cqvip.com
无 关 。因此 ,在 噪 声方 向慢 变 的情 况 下 ,FDM—SS算
法 可 以用 于抵 消 短 时平 稳 的 噪声 (如 来 自其 他 方 向
的语音 ),而这 是单通 道 语音 增 强技 术无 法实 现 的 。
若 定 义先 验信 噪 比
一 高t ,
‘. J l 。l一
则 输 出语音 的功率 可 以进一 步表 示 为
1 S 1 =
号{1一c。s[-wd(1+c。so)/f])
ly .
(23)
综上 所述 ,FDM—SS算 法 的实 现框 图如 图 3所
示 ,其 中模 块 FFT表 示快 速 Fourier变换 ,IFFT表
示逆 变换 。
崔 玮 玮 ,等 : 基 于 FDM 阵列 技 术 的 双 通 道 语 音 增 强 方 法
l y 一
2{1一 cos[wd(1+ COS 0)/c3)E[1S l ]+
E[1Ⅳ l ]+ E[1Ⅳ l ]+ E[yNN]. (14)
考 虑 到 语音 的短 时 平 稳性 ,并假 定 噪声 也 是 短 时 平
稳 的 ,则 式 (14)可 写 为
ly】l : 2{1一 COS[-oJd(1+ COS )/c])lS l +
lⅣ l + lⅣ2 l 一 2ReEN1Ⅳ exp(jwd/c)].
对 于方 向性 干 扰 噪声 ( )(STFT表 示 为 Ⅳ),如果
噪声 来 自于 ≯方 向 ,则 2个 麦克 风 接 收 到 的 噪声 可
(15)
以表 示为 :
fN : N ;
{N,一Nexp(一j cos#/f).
将 式 (16)代入 式 (15)和 (11),可得 :
ly l 一 2{1一 COS[-wd(1+ COS )/c])lS l +
2{1一 COS[-oJd(1+ COS≯)/c])lⅣ l , (17)
ly21 一 2{1一 cos[-wd(1一 COS≯)/c])lN l .
(18)
借 助单 通道 ss方法 ,lS l 的估计 由下 式 给 出 :
lS 1 一 {1一 cos[-wd(1+ cosO)/c])_。·
{ly1 l 一 a(t, )ly2l ),
(19)
一 }三 嚣
{ sinE' ~Ud 1 COS/c]) . (20)
I (一 ) J。
其 中 厂一~o/27r为信号 频 率 。这 就是 利用 FDM 阵列
一
技 术 和 SS方 法 实 现 的 双 通 道 语 音 增 强 方 法 ,本 文
将 其称 为 FDM—SS算 法 。
观 察 ( , )和 文 E8]中式 (1)的 ( )可 以 看
出 ,两 者虽 然在表 达 式上 是 相似 的 ,却分 别代 表 了不
同域 内的变 量 。 ( )是一 个 时域滤 波器 ,并 且 获得
( )的过 程是 通 过 自适应 的方 式 来 实现 的 ,而 a(t,
图 3 FDM -SS算 法 实 现 框 图
若 定 义 算法 的复 杂度 为 该 算 法 在 处 理 一 帧 数
据 (帧长 为 )时 所需 的乘法 次 数 ,则 本 文所 提 出 的
FDM —SS算 法 的 计 算 复 杂 度 为 3MIbM + 12M ,而
ANF算 法 (利用 Fast Block—LMS 自适应 方法 实现 )
的 复杂 度u叫为 10MlbM +26M 。由此可 见 ,FDM—SS
算法 的复 杂 度约 为 ANF算 法 的 1/3。
3 仿真实验
’
本 节 通 过 计 算 机 仿 真 实 验 验 证 本 文 提 出 的
FDM—SS算 法 的 有效 性 ,并与 现 有 若 干 经典 算 法 进
)的计 算 在频 域 进行 。实 际上 ,通 过 式 (17)和 (18)
行 比较 ,分 析 其性 能 差异 。实 验 中 ,麦 克风 阵列 由相
可 以看 出 ,a(t,oo)可 以 由静 音段 1 y 1 和 1 y 1 的 比
值 直接 估计 得到 ,即
a( , )=
.
(21)
距 为 d一 2.125 cm 的 2个 全 指 向性 麦 克 风组 成 ,信
号 采 样频 率 为 16 kHz,并 采 用分 帧的 方 式处 理 ,帧
长 256,帧移 128。期望 声源 位于 阵列的 O。方 向 。方
向性 干扰 取 Noisex92库 中 的 babble噪声 。 图 4给
这就 避 开 了 自适 应算 法 在参 数收 敛过 程 中所 造 成 的
出 在 信 噪 比 y为 0dB,噪声 方 向 ≯为 120。时 ,纯 净
噪声 泄漏 问题 。另一 方 面 ,文 [8]证 明了 在感 兴趣 的
语 音 、.babble噪 声 以 及 2个 麦 克 风 所 接 收 到 的
频率范 围 内,有 如下 近似 :
信号 。
sinE~ fd COS /c]≈ 1 C OS .
(1一 声) ~ 一 。
下 面对 不 同 的语 音 增 强算 法 进 行 仿真 比较 ,这
些 算 法 包 括 Wiener滤 波 算 法 l_3]、多 带 谱 减 算 法
此 时 ,a(t, )只 与 噪 声 的方 向 有关 ,而 与信 号 本 身
(multi—band spectral subtraction,M BSS)E ]
、 A N F
O_3
, aj
t
f于丁 晒 目
蓥 。
-▲ ▲ ▲▲ ▲I- .J-▲
■
’
一
’ ’ 一
清 华 大 学 学 报 (自 然 科 学 版 )
维普资讯 http://www.cqvip.com
;(z)分 别 表示 期 望语 音及 其估 计 ,L表 示 信号 的总
样 本 数 ,定 义输入 信 噪比
),。 一10lgl∑S2(z)/∑ (z)1. (24)
误差 信号 为 :
e(Z)一 l;(Z)一 S(Z)l,
(25)
fe(Z), 一 0;
尺 (z)一 l
l 0,
一 1.
(26)
其 中 , 为语 音 活动检 测 的结果 。 一0表 示静音 段 ,
一 1表示 语音 活动 周期 。则式 (25)中的 e(z)既包 含
了残 留 噪声 尺 的 影响 ,也包 含 了语 音失 真 的影 响 。
一 O-3
O 3
藿 。
一 O 3
O_3
藿 。
一 O_3
OI3
。
一 O_3
(d)麦克风 2
基 于此 ,给 出 2种输 出信 噪比定义 :
), 一10lgl∑;。(z)/∑P。(z)1, (27)
0
l
2
3
4
5
6
样本数 ×10
), 2—10 lgl∑; (z)/∑n2n(z)1. (28)
图 4 纯净 语 音 、babble噪 声 以 及 2个 麦 克 风
根 据 以 上 定 义 ,在输 入 信 噪 比取 一 5~20 dB,噪声
接收 到 的信 号
分 别位 于 90。、120。和 180。时 ,不 同算 法所 得 到 的输
算 法[8 (自适应 过程 利用 Fast Block—LMSElO]实现 ),
出信噪 比如 图 6所 示 。
以及本 文提 出的 FDM—SS算法 ,其 中单通 道 Wiener
滤 波 算 法 和 MBSS算 法 的 语 音 增 强 是 针 对 信 号
.z (f)的 处 理 结 果 。图 5示 出 了 在 ),为 0 dB, 为
120。时 ,不同算 法 的增 强结 果 。
O_3
蓥 。
一 O_3
O 3
。
一 O 3
O 3
蓥 。
一 O-3
O 3
。
一 O-3
O 3
藿 。
一 0.3
0
1
2
3
4
5
6
样本数 ×10
图 5 不 同算 法 的增 强结 果
为 了更 加 客观 地 比较 各 算 法 的增 强性 能 ,本 文
由 图 6a、6b和 6c可 以 看 出 ,在 处 理方 向性 噪
声 时 ,单通 道 语 音 增 强 方 法 Wiener和 MBSS在 低
信 噪 比的环 境下 性 能 会急 剧 恶化 ,而 多 通道 的语音
增强算 法 ANF和 FDM—SS可 以获 得相 对稳 健 的结
果 。在 一5~ 5 dB时 ,本 文提 出的 FDM—SS方法相 对
于 Wiener以 及 MBSS有 6~ 7 dB的 改 善 ,而 相 比
ANF算 法则 有 2~6dB的性 能 增益 。如果仅 考虑 噪
声 消 除性 能 ,如 图 6d、6e和 6f,FDM—SS算 法 对信
噪 比的提 升 明显优 于其 他算法 。通 过进 一步 比较 图
6中上 下两行 还 可 以看 出 ,在高 输入 信 噪 比情 况下 ,
FDM—SS会 部分 地 造 成 语 音失 真 ,或者 说 由 FDM—
SS算 法 引起 的失真 大于 MBSS算法 。这 一失 真可通
过 修 正 加权 系 数 a(f, )来 进 行 改 善 ,然 而 ,这 样做
会 降低算 法 的消噪性 能 。因此 ,增 强算 法需要 在 残 留
噪 声和语 音 失真 2个性 能指标 之 间进 行折 中考 虑 。
4 结 论
本 文通 过将 FDM 阵列 技术 与 单通 道谱 增 强方
法 相 结合 ,既 利 用 了 阵列 的空 间滤 波 特性 来 处 理方
向性 的 干扰 噪声 ,又借 助 于传 统 单通 道 谱增 强 技 术
实 现 了一种 实 时 的双 通道 语 音 增强 方 法 ,该算 法 与
目前普 遍采 用 的双 通道 语 音增 强 ANF算法 相 比有
2~ 6 dB 的 输 出 信 噪 比 改 善 ,且 计 算 复 杂 度 仅 为
ANF算法 的 1/3。因而 ,该 算法 能够 获得 更 高 质 量
统 计 了语 音信 号 的输 入 输 出信 噪 比。假 定 S(z)和
的语 音信号 ,且更 适合 于实 时的语 音增 强 系统 。
崔 玮 玮 ,等 : 基 于 FDM 阵 列 技 术 的 双 通 道 语 音 增 强 方 法
1l39
维普资讯 http://www.cqvip.com
兽
兽
兽
.
Z /dB
Z /dB
/dB
(a)噪声位于 90。方 向时的 ‰
(b)噪声 位于 120。方向时的 ‰
(C)噪声位于 180。方 向时的 ‰ l
一
一
一 W iener
兽
、
兽
、
兽
、
/dB
/dB
‰ /dB
(d)噪声位 于 90。方向时的 ‰
(e)噪声位 于 120。方 向时的 ‰
(f)噪声位 于 180。方向时的 ‰
图 6 各 种 算 法 的 输 出 信 噪 比
参 考 文献 (References)
[1]
Boll S F. Suppression of acoustic noise in speech using
spectral subtraction [J].IEEE Trans on Acoust,Speech and
Signal Processing,1979,27:113— 120.
[6] Griffiths L J,Jim C W.An alternative approach to linearly
constrained adaptive beamforming [J]. IEEE Trans on
Antennas Propagation,1 982,30:27—34.
[7] Elko G W , Pong A T N. A simple adaptive first—order
differential microphone Eel // IEEE ASSP workshop on
[2]
Ephraim Y ,M alah D.Speech enhancem ent using a m inimum
Applications of Signal Processing to Audio and Acoustics.
mean—square error log—spectral amplitude estimator [J].
IEEE Trans on Acoust, Speech and Signal Processing,
1985,33: 443 — 445.
[3]
Scalart P,Filho J V .Speech enhancem ent based on a priori
New Paltz,N Y ;IEEE ,1995:169—172.
[8] LUO Falong, YANG Jun, Pavlovic C,et a1. Adaptive
null—forming scheme in digital hearing aids[J].IEEE Trans
on Acoust,Speech and Signal Processing,2002,SO: 1583—
signa1.to noise estimation [c] // IEEE International
1590.
Conference on Acoustics, Speech, and Signal Processing.
Atlanta,GA :IEEE ,1996,2:629— 632.
E43
Kamath S。 Loizou P. A multi—band spectral subtraction
method for enhancing speech corrupted by colored noise[c]
//IEEE Internationa1 Conference on Acoustics,Speech,and
Signal Processing. Orlando, Florida: IEEE, 2002: 675 —
678.
[53
Flanagan J L.Com puter—steered microphone arrays for sound
transduction in large rooms[J].Journal of Acoustic Society
ofAmerica,1985。78:1508—1518.
[9] 魏建强.基于小数量麦克风的语音增强算法研 究 [D].北京 ;
中国科学院声学研究所 ,2005.
W EI Jianqiang. Research on algorithm of speech
enhancement based on small num ber of m icrophones rD].
Beijing: Institute of Acoustics, Chinese Academy of
Sciences,2005. (in Chinese)
[103 Haykin S. Adaptive Filter Theory (Fourth Edition) [M ].
Beijing:Publishing House of Electronics Industry,2002.