第
卷
第
期
电子设计工程
年
月
!
#$%&
#
"!
' #$%&
基于改进型双门限语音端点检测算法的研究
薛胜尧
河海大学 能源与电气学院 江苏 南京
#%%$$$
摘要 语音端点检测是语音信号处理过程中的一个重要步骤 其检测准确性直接影响语音信号处理的速度和效果 传
统的基于双门限法语言检测技术 在语音处于纯语音情况下判断语音端点较准确 但在语音 处 于噪 声 情 况下 尤 其 是
低信噪比的情况下 端点识别率很低 出错率很高 基于提高此方法识别率的目的 采用调整 阈 值 个数 平 滑 滤波 引
入语音结束最小长度的方法对其进行改进 通过了
仿真实验 得出了较好的语音端点检测准确率
011
关键词 语音信号处理 语音端点检测 低信噪比 短时过零率 短时能量
中图分类号
文献标识码
文章编号
"%#
2
%34!353
$%&
$!$$46$!
!"! !#
789 +:;1
!"#! $##% &# '##"% # #
$%+: 1 1 < : = 1 >:: ; 1?? : ?
: 1<1; 1 ??= ? : = 1 : 11 : 1 : < ::
1: : 1 ? : < = : = @< 1<1 < : 1 ? : 1; :
1 ? : > 1 1 : ? : 1 =; > : 1 =; :: A
= : 1 > 1@< : :: < : : 1 < : < : ? : :
:<: : 011 <1 B > 1 : 1<1;
&' %: 1 C: C > +"DC: E 1C: ;
语音 端 点 检 测 的 目 的 是 从 包 含 语 音 的 一 段 信 号 中 确 定
出 语音 的 起 点及 结 束 点 它 是 语 音信 号 处 理中 的 一 个基 础 步
语音信号的短时能量分析
骤 有 效 的 端点 检 测 能有 效 辅 助语 音 识 别 语 音 降 噪 等 语 音
语音信号的能量随时间变化而变化的重要参数 一般清音
处理操作 提高语音信号质量 语音端点检测的成败 将直接
部分的能量比浊音部分的能量小 信号的短时能量分析给出了
影响着后续工作的正确率乃至整个语音识别系统的成败 所
反应这些幅度变化的一个合适的描述方法 对于信号
第
*.
以语音端点检测的研究一直是学者们研究的热点之一
帧语音信号的短时能量定义如下
端 点 检 测 的 常 用 方 法 有
能 量 阈 值 基 音 检 测 频 谱 分
析 倒谱分析及
预测 (%)等 其中基于能量和过零率的双门
%
#
(*.*.)
$
限判 决 法 最为 常 用 在许 多 语 音信 号 处 理任 务 中 需要 判 断
一段 输 入 信号 中 哪 些是 语 音 段 哪 些 是 无声 段 哪 些是 噪 声
%
#
*.
*.
$
在一 些 语 音识 别 或 低速 语 音 编解 码 器 应用 中 对 于已 经 判 别
式 中
#
表 示 选 取 的 窗 函 数
表 示 在 信 号
*. *.
*.
为 语 音 段的 部 分 还需 进 一 步判 断 清 音和 浊 音 这些 问 题 可
的第
帧语音信号的短时能量
为帧长 可以看 出 短 时能
以 称 为 有 声 或 无 声 判 决 以 及 更 细 致 的 无 声
清 音
浊
*+,
*-.
量 可 以 看 作 语 音 信 号 的 平 方 经 过 一 个 线 性 滤 波 器 的 输 出 ()
音
* /.
判决 ( )
能够实现这些判决的依据在于 不同性质语音
该线性滤波器的单位冲击响应为
如图
所示
*.
%
的各 种 短 时参 数 具 有不 同 的 概率 密 度 函数 以 及 相邻 的 若 干
帧 语 音 具 有 一 致 的 语 音 特 性 不 会 在 无 声 清 音 和 浊 音 之 间
随意跳变 文章比较了利用短时能量和短时平均过零率进行
端点检测的传统方法和改进后大 方 法 并在
011
中 编 程仿
真得出了预期结果
图
语音信号的短时平均能量实现框图
'
+: 1=1 ; ? : : 1
冲 激 响 应
的 选 择 或 者 说 窗 函 数 的 选 择 决 定 了 短 时
*.
1E1 11
收稿日期
稿件编号
#!6#
#!66
能 量 表 示 方 法 的 特 点 为 反 应 窗 函 数 选 择 对 短 时 能 量 的 影
作者简介 薛胜尧
男 江苏无锡人 硕士研究生 研究方向 数字信号处理 语音信号处理
46
薛胜尧 基于改进型双门限语音端点检测算法的研究
响 假 设 式 中 的
非 常 长 且 为 恒 定 幅 度 那 么
随 时 间
的 变 化 将很 小 这 样的 窗 就 等效 为 很 窄的 低 通 滤波 器
对
若
的平滑作用较显著 无法反映语音的时变特性 反之
序 列 长 度
过 小 那 么 等 效 窗 不 能 提 供 足 够 的 平 滑
以 至 于语 音 振 幅瞬 时 变 化的 许 多 细节 仍 被 保留 从 而 看 不 出
振幅包络的变化规律 通常
的选择与语音的基音周期相联
系 一般要求窗长为几个基音周期的数量级
短 时 能 量 主 要 用 于 区 分 清 音 和 浊 音 因 为 浊 音 比 清 音
的能量大得 多
其 次 可 以用 短 时 能量 对 有 声段 和 无 声段 进 行
判定 对声母和韵母分界 以及对连字分界等 在语音识别系
统中 短 时能 量 一 般也 作 为 特征 中 的 一维 参 数 来表 示 语 音 信
号能量的大小和超音段信息
图
为 语 句 一 二 三 四 五 的 语 言 波 形 图 及 其 短 时
能量谱
图
短时过零率
通 过 分 析 语 音 信 号 发 现 发 浊 音 时 尽 管 声 道 有 若 干 共
(
',*--) #-* -
振 峰 但 由 于 声 门 波 引 起 谱 的 高 频 跌 落 所 以 其 语 言 能 量 约
集 中 在
!"#
以 下 而 发 清 音 时 多 数 能 量 出 现 在 较 高 频 率
上 从 频 率 的角 度 来 说 当 频 率 较高 时 其 过零 率 应 当 较 高
相反频率较低时 其过零率较低 在语音发音中 短时过零率
便可以辨别出浊音信号和清音信号
由于 人 说话 时 是 清浊 音 想 结合 的 因 此 利 用 短 时 过 零 率
还可 以 从 背景 噪 声 中找 出 语 音信 号 可 用于 判 断 寂 静 无 话 段
与 有 话 段的 去 点 和终 点 位 置 在 背 景 噪声 较 小 时 用 平 均 能
量 识 别 较 为 有 效 而 在 背 景 噪 声 较 大 时 用 短 时 平 均 过 零 率
识别较为有效 $
当混入不同类型的噪声信号时 往往不能光
图
语句 一 二 三 四 五 的语言波形图及其短时能量谱
凭借短时能量判断出语音的端点 将短时过零率和短时能量
(
') * +* ,- .*- ./ , 01, +/.*-)
结合起来应用的双门限法能较好的判断出语音端点的所在
-) ,*--) - 01-)
短时平均过零率
传统的双门限检测方法
短 时 平 均 过 零 率 是 语 音 信 号 时 域 分 析 中 的 一 种 特 征 参
数 它是指每帧内信号通过零值的次数 对于连续语音信号
可以 考 察其 时 域 波形 通 过 时间 轴 的 情况 对 于 离 散 信 号 短
时平均过零率实际就是信号采样点符号变化的次数 短时平
均过 零 率仍 可 以 在一 定 程 度上 反 映 其频 谱 性 质 可 以 通 过 短
时平均过零率获得谱特性的一种粗略估计 第
帧语音的短
时平均过零率的公式为
其中
为符号函数 帧长为
双 门 限 法 最 初 是 基 于 短 时 平 均 能 量 和 短 时 平 均 过 零 率
而提 出 的 其原 理 是 汉语 的 韵 母中 有 元 音 能 量 较 大 所 以 可
以 从 短 时 平 均 能 量 找 出 韵 母 而 声 母 是 辅 音 它 们 的 频 率 较
高 相 应 的 短 时 平 均 过 零 率 较 大 所 以 用 这 两 个 特 点 找 出 声
母 和 韵 母 等 于 找 出 完 整 的 汉 语 音 节 双 门 限 是 使 用 二 级 判
决来 实 现 的 首 先 为 短时 能 量 和过 零 率 分别 确 定 两 个 门 限
一 个 是 较 低 的 门 限 数 值 对 信 号 的 变 化 比 较 敏 感 很 容 易 超
过
另一个是比较高的门限 数值较大 低 门限 被 超 过未 必 是
语 音 的 开 始 有 可 能 是 很 短 的 噪 声 引 起 的 高 门 限 被 超 过 并
且接 下 来 的自 定 义 时间 段 内 的语 音 超 过低 门 限 意 味 着 信 号
开始 %
&
此时整个端点检测可分为四段
静音段 过 渡 段 语音 段
图
给出了短时平均过零率的计算过程
图
短时平均过零率的计算过程
结束 实验时使用一个变量
表示当前状态 在处于静
'
音段 时 如果 能 量 或过 零 率 超过 低 门 限 就 开 始 标 记 起 始 点
进 入 过 渡段 过 渡 段当 两 个 参数 值 都 回落 到 低 门 限 以 下 就
将当前状态恢复到静音状态 而如果过渡段中两个参数中的
任一个超过高门限 即被认为进入语音段 处于语音段时 如
( 1* ) /- #-*1-* -
图
给出了语音 一 二 三 四 五
的短时过零率图
果两 参 数降 低 到 门限 以 下 而且 总 的 计时 长 度 小 于 最 短 时 间
电子设计工程
年第
期
./0
1
门限 则 认为 是 一 段噪 音 否 则就 继 续 扫描 以 后 的语 音 数 据
同 样 存 在 着 丰 富 的 高 频 成 分 它 的 过 零 率 显 然 是 高 的 要 比
当 其 两 个 参 数 都 降 至 门 限 以 下 而 总 计 时 长 大 于 最 短 时 间 门
韵 母 高 很多 所 以 会在 韵 母 的部 分 造 成一 个 凹 形的 区 域 而
限 则 标 记 语 音 结 束 端 点 注 明 此 处 为 一 段 语 音 并 从 新 进 入
噪 声 的 过 零 率 与 声 母 相 比 有 时 会 大 于 声 母 的 有 时 会 小 于
静音段
改进型双门限法
噪声的影响
它 这和噪声的短时特性有关 但一般而言 对于处理低信噪
比的 语 音短 时 短 时过 零 率 都处 于 以 上情 况 中 所 以 当 我 们
寻 找 有 音 段 时 不 再 寻 找 过 零 率 大 于 某 一 阈 值 而 是 小 于 某
一 阈 值 并且 我 们 在这 里 对 于短 时 过 零率 设 置 阈值 时 我 们
从上 面 的 分 析 可 以 知 道 在 背 景 噪 声 较 小 时 短 时 过 零
只 设 置 一个 阈 值 因为 短 时 过零 率 不 像短 时 能 量 其 有 音 段
率 在 有 音 段 时 的 幅 值 较 大 但 是 如 果 我 们 适 当 的 叠 加 噪 声
的 值 和 过 度 段 的 值 相 差 不 大 设 置 多 个 阈 值 对 于 判 定 并 不
后 情况 就 会 变得 不 一 样了 如 果 我们 叠 加 一个 较 大 的 高 斯
能起到很好的作用 反而降低计算速度
白 噪 声 得 到 一 个 信 噪 比 较 低 的 语 音 段 并 作 短 时 过 零 率 分
低信噪比时的问题
析 我们 将 会 得到 一 个 完全 不 同 的结 果 如 图
是 一 段 语 音
在 低 信 噪 比 时 的 由 于 噪 声 的 能 量 较 大 能 量 曲 线 和 短
一 二 三 四 五 加 噪后 的 波 形图 和 短 时过 零 率 图 在 叠 加
时 过零 率 曲 线的 起 伏 较大 故 阈 值的 设 置 不能 太 低 所 以 当
高斯白噪声后 它的信噪比为
我们说话吐字太清时 能量较低 会出现漏判的情况 为了解
决这 个 问题 引 入 中值 滤 波 器对 于 能 量曲 线 和 短时 过 零 率 曲
线 进 行平 滑 处 理 在 这 里 采用 一 个 滑动 窗 口 其采 样 点 数 一
般 在
个点 然 后 选出 其 中 值 中 值 平 滑的 优 点 就 在 于 既 可
以 有 效 地取 出 少 量的 野 点 又不 会 破 坏数 据 在 两个 平 滑 段 之
间 的 阶跃 性 变 化 如 图
就 像我 们 展 示了 中 值 滤 波 前 后
的短时能量和短时过零率图谱
图
加噪后的语音波形图和短时过零率
!"# $%&' " '% %& % %" "$ % " '
现 在 附 加 上 原 来 纯 语 音 阶 段 的 短 时 过 零 率 和 波 形 图
如图
所示
图
中值滤波前后的短时能量图谱
*% %& %+ ', %" $% " "$ % & " $- %
图
纯语音的短时过零率和波形图
(% #
' '%) %& % %" " !"# $%&
从 图 中 分 析 可 知 短 时 过 零 率 已 不 再 是 在 语 音 的 声 母
和 韵 母 处 有 较 大 的 过 零 率 在 静 音 区 有 较 小 的 过 零 率 而 现
在 的情 况 正 好相 反 在 无话 段 的 噪声 处 有 较大 的 过 零 率 比
声 母 韵 母 都 要大 这 实 际上 很 好 理解 在 高 斯白 噪 声 声 中
/
图
中值滤波前后的短时过零率图谱
*% %& % %" ," %' $% " "$ % & " $- %
薛胜尧 基于改进型双门限语音端点检测算法的研究
引入语音结束最小长度设定
为 了 更 符 合 人 说 话 时 的 语 言 特 性 引 入 语 音 段 结 束 最
实 验
小长度 这是为了考虑人发音是单词之间的静音区会有一个
此处 对 于一 段 语 音 一 二 三 四 五 进 行 分 析 并 对 其
最小 长 度表 示 发 音间 的 停 顿 就 是 在 小于 阈 值 时满 足 一 个 最
加入高斯白噪声使其信噪比达到
其采样频率为
其
小 长 度才 判 断 该语 音 结 束 实 际 上 相当 于 延 长了 语 音 尾 音 的
分帧长度为
个采样点 帧间重叠
这里我们用传统的采
长度 这样做可以减少对于静音区的误判断 减轻计算量
样方法和改进行的方法进行对比 分别如图
图
所示 在
总的来说 对 于 语 音的 判 决 我们 设 定
个门 限
和
图
中 统 一以 实 黑 纵线 表 示 语音 段 的 开 始 以 虚 黑 纵 线
代表能量阈值
代表过零率阈值 首先对于背景噪声算
表示语音段的结束
出它 的 能量 统 计 特性 定 出 能量 高 低 门限 短 时 过零 率 门 限
利 用 能 量门 限 来 确定 语 音 信号 的 初 始起 止 点 然后 根 据 过 零
结 论
率 精 确得 出 起 止点 在 本 文的 实 验 中 对 于 前 十帧 的 信 号 进
从图 中 可以 看 出 传统 形 的 方法 出 现 了 严 重 的 错 判 和 漏
行 短 时平 均 能 量和 过 零 率的 计 算 然后 根 据 算得 的 值 设 定 门
判情 况 这 种方 法 只 能判 断 出 一 三 五 这
个 读 音 的 端 点
限 根据能量门限算得一初始起点
其能量值超过
逐
其判断的准确率只有
在改进型的方法中一二三四五这
!
次比 较 以 后 每 帧 的 平 均 幅 度 是 否 超 过
和 低 于
直 到 不
个读音的端点均得到了很好的判断 准确率达到了
"
!
满足则判断终止 记为
然后判断从
到
是否满足最
本 研 究 结 果 解 决 了 在 低 信 噪 比 情 况 下 传 统 双 门 限 法 无 法 准
小语音段长度 若满足 则 在
的基 础 上 加上
个 采 样点 以
确 判 断 语 音 端 点 的 问 题 在 此 改 进 型 方 法 下 语 音 端 点 判 断
表示语音结束最小长度 再从
点 处开 始 重 新判 断 若
的准确率大幅提高
到
的长度不满足 则原
不作为 初始 起 点 改记 下 一
参考文献
个平均幅度超过了低能量门限的帧为
依此类推 在找到
赵力
语音信号处理
北京
机械工业出版社
#$
%
#&$%
'
%
第一个平均幅度超过高能量的帧时停止比较
韩纪庆 张磊 郑铁然
语音信号处理
北 京
清 华 大 学出
#$
%
#&$%
'
版社
%
#$ ( )* +* % , -./011* . 0- -*.
/.#2$3456789552(-
:'";%
夏敏磊 语音端点检测技术研究
杭州 浙江大学
#$
#$%
"%
陆 东 钰 周 萍
基 于 双 门 限 算 法 的 语 音 端 点 检 测 和 声 韵 母
#"$
%
分离研究
桂林电子科技大学学报
#$(
( '%
<6 .= >?86 9*=%1@ .@ 0.* -*.
1@=.*/ .A@ 1/. 011*. #$%*@* 6** .
5@-.*- -.@.=>
' %
路青 起 白燕 燕 基 于 双 门 限 两 级 判 决 的 语 音 端 点 检 测 方
# $
法
电子科技
#$%
>
"'%
<6 B*= C*>D,E 1 1%.*- 0.* -*. /.
1 . .@ .@ @@ =/
#$%5@-.*-
-.@.=>
"'%
邓 艳 容 景 新 辛 杨 海 燕
等
语 音 端 点 检 测 研 究
计 算 机
#:$
>
%
#$%
系统应用
'%
5 1.=>E, )**>, 1*1> 1@%.*-
-*. #$%2./0 / ,00@*-1*.
'
%
图
传统型方法
+*=% 1**.1@ /.
图
改进型方法
+*=%
E/0. /.
"
电子设计工程
半月刊
欢迎订阅
年度
国内邮发代号
国际发行代号
订价
元
期
元
年