logo资料库

基于改进型双门限语音端点检测算法的研究.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
第 卷 第 期 电子设计工程 年 月  ! #$%& #   "!    ' #$%& 基于改进型双门限语音端点检测算法的研究 薛胜尧 河海大学 能源与电气学院 江苏 南京 #%%$$$  摘要 语音端点检测是语音信号处理过程中的一个重要步骤 其检测准确性直接影响语音信号处理的速度和效果  传 统的基于双门限法语言检测技术 在语音处于纯语音情况下判断语音端点较准确 但在语音 处 于噪 声 情 况下 尤 其 是 低信噪比的情况下 端点识别率很低 出错率很高  基于提高此方法识别率的目的 采用调整 阈 值 个数 平 滑 滤波 引 入语音结束最小长度的方法对其进行改进 通过了 仿真实验 得出了较好的语音端点检测准确率  011 关键词 语音信号处理 语音端点检测 低信噪比 短时过零率 短时能量 中图分类号  文献标识码  文章编号   "%# 2  %34!353 $%& $!$$46$!           !"! !# 789 +:;1       !"#! $##% &# '##"% # # $%+:    1 1  < : = 1  >:: ; 1?? :  ? :  1<1; 1 ??= ? : = 1  : 11 : 1  : < :: 1:  : 1 ? : < = : = @<   1<1 <  : 1 ? :   1;  : 1 ? : > 1   1 :  ? :  1  =; > :  1  =; :: A   = :  1 > 1@< : :: < : : 1 < : < : ? : :  :<: : 011 <1 B >  1  :   1<1; &' %: 1 C:  C > +"DC: E 1C: ; 语音 端 点 检 测 的 目 的 是 从 包 含 语 音 的 一 段 信 号 中 确 定 出 语音 的 起 点及 结 束 点 它 是 语 音信 号 处 理中 的 一 个基 础 步  语音信号的短时能量分析 骤  有 效 的 端点 检 测 能有 效 辅 助语 音 识 别 语 音 降 噪 等 语 音 语音信号的能量随时间变化而变化的重要参数 一般清音 处理操作 提高语音信号质量  语音端点检测的成败 将直接 部分的能量比浊音部分的能量小  信号的短时能量分析给出了 影响着后续工作的正确率乃至整个语音识别系统的成败  所 反应这些幅度变化的一个合适的描述方法  对于信号 第 *.  以语音端点检测的研究一直是学者们研究的热点之一  帧语音信号的短时能量定义如下  端 点 检 测 的 常 用 方 法 有 能 量 阈 值 基 音 检 测 频 谱 分  析 倒谱分析及 预测 (%)等  其中基于能量和过零率的双门 % #   (*.*.)      $ 限判 决 法 最为 常 用  在许 多 语 音信 号 处 理任 务 中 需要 判 断  一段 输 入 信号 中 哪 些是 语 音 段 哪 些 是 无声 段 哪 些是 噪 声  % #  *. *.    $ 在一 些 语 音识 别 或 低速 语 音 编解 码 器 应用 中 对 于已 经 判 别 式 中  #  表 示 选 取 的 窗 函 数  表 示 在 信 号  *. *.  *.   为 语 音 段的 部 分 还需 进 一 步判 断 清 音和 浊 音  这些 问 题 可 的第 帧语音信号的短时能量  为帧长  可以看 出 短 时能   以 称 为 有 声 或 无 声 判 决 以 及 更 细 致 的 无 声 清 音 浊 *+, *-. 量 可 以 看 作 语 音 信 号 的 平 方 经 过 一 个 线 性 滤 波 器 的 输 出 ()  音 * /. 判决 ( )  能够实现这些判决的依据在于 不同性质语音 该线性滤波器的单位冲击响应为 如图 所示  *. % 的各 种 短 时参 数 具 有不 同 的 概率 密 度 函数 以 及 相邻 的 若 干 帧 语 音 具 有 一 致 的 语 音 特 性 不 会 在 无 声 清 音 和 浊 音 之 间 随意跳变  文章比较了利用短时能量和短时平均过零率进行 端点检测的传统方法和改进后大 方 法 并在 011 中 编 程仿 真得出了预期结果  图  语音信号的短时平均能量实现框图 '  +: 1=1 ; ? : : 1 冲 激 响 应 的 选 择 或 者 说 窗 函 数 的 选 择 决 定 了 短 时 *. 1E1 11 收稿日期  稿件编号  #!6# #!66 能 量 表 示 方 法 的 特 点  为 反 应 窗 函 数 选 择 对 短 时 能 量 的 影 作者简介 薛胜尧   男 江苏无锡人 硕士研究生  研究方向 数字信号处理 语音信号处理   46
薛胜尧 基于改进型双门限语音端点检测算法的研究 响 假 设 式 中 的 非 常 长 且 为 恒 定 幅 度 那 么 随 时 间     的 变 化 将很 小  这 样的 窗 就 等效 为 很 窄的 低 通 滤波 器   对 若  的平滑作用较显著 无法反映语音的时变特性 反之   序 列 长 度 过 小 那 么 等 效 窗 不 能 提 供 足 够 的 平 滑     以 至 于语 音 振 幅瞬 时 变 化的 许 多 细节 仍 被 保留 从 而 看 不 出 振幅包络的变化规律  通常 的选择与语音的基音周期相联  系 一般要求窗长为几个基音周期的数量级  短 时 能 量 主 要 用 于 区 分 清 音 和 浊 音  因 为 浊 音 比 清 音 的能量大得 多  其 次 可 以用 短 时 能量 对 有 声段 和 无 声段 进 行 判定 对声母和韵母分界 以及对连字分界等  在语音识别系 统中 短 时能 量 一 般也 作 为 特征 中 的 一维 参 数 来表 示 语 音 信 号能量的大小和超音段信息   图  为 语 句 一 二 三 四 五 的 语 言 波 形 图 及 其 短 时 能量谱  图  短时过零率 通 过 分 析 语 音 信 号 发 现 发 浊 音 时 尽 管 声 道 有 若 干 共 (  ',*--) #-* - 振 峰 但 由 于 声 门 波 引 起 谱 的 高 频 跌 落 所 以 其 语 言 能 量 约 集 中 在  !"# 以 下 而 发 清 音 时 多 数 能 量 出 现 在 较 高 频 率 上  从 频 率 的角 度 来 说 当 频 率 较高 时 其 过零 率 应 当 较 高  相反频率较低时 其过零率较低  在语音发音中 短时过零率 便可以辨别出浊音信号和清音信号  由于 人 说话 时 是 清浊 音 想 结合 的 因 此 利 用 短 时 过 零 率 还可 以 从 背景 噪 声 中找 出 语 音信 号 可 用于 判 断 寂 静 无 话 段 与 有 话 段的 去 点 和终 点 位 置  在 背 景 噪声 较 小 时 用 平 均 能 量 识 别 较 为 有 效 而 在 背 景 噪 声 较 大 时 用 短 时 平 均 过 零 率 识别较为有效 $  当混入不同类型的噪声信号时 往往不能光 图  语句 一 二 三 四 五 的语言波形图及其短时能量谱 凭借短时能量判断出语音的端点  将短时过零率和短时能量 (  ') * +* ,- .*- ./ , 01, +/.*-) 结合起来应用的双门限法能较好的判断出语音端点的所在  -)   ,*--) - 01-) 短时平均过零率  传统的双门限检测方法  短 时 平 均 过 零 率 是 语 音 信 号 时 域 分 析 中 的 一 种 特 征 参 数  它是指每帧内信号通过零值的次数  对于连续语音信号  可以 考 察其 时 域 波形 通 过 时间 轴 的 情况  对 于 离 散 信 号 短 时平均过零率实际就是信号采样点符号变化的次数  短时平 均过 零 率仍 可 以 在一 定 程 度上 反 映 其频 谱 性 质 可 以 通 过 短 时平均过零率获得谱特性的一种粗略估计  第 帧语音的短  时平均过零率的公式为             其中 为符号函数 帧长为    双 门 限 法 最 初 是 基 于 短 时 平 均 能 量 和 短 时 平 均 过 零 率 而提 出 的 其原 理 是 汉语 的 韵 母中 有 元 音 能 量 较 大 所 以 可 以 从 短 时 平 均 能 量 找 出 韵 母 而 声 母 是 辅 音 它 们 的 频 率 较 高 相 应 的 短 时 平 均 过 零 率 较 大 所 以 用 这 两 个 特 点 找 出 声 母 和 韵 母 等 于 找 出 完 整 的 汉 语 音 节 双 门 限 是 使 用 二 级 判 决来 实 现 的  首 先 为 短时 能 量 和过 零 率 分别 确 定 两 个 门 限  一 个 是 较 低 的 门 限 数 值 对 信 号 的 变 化 比 较 敏 感 很 容 易 超 过 另一个是比较高的门限 数值较大  低 门限 被 超 过未 必 是  语 音 的 开 始 有 可 能 是 很 短 的 噪 声 引 起 的 高 门 限 被 超 过 并 且接 下 来 的自 定 义 时间 段 内 的语 音 超 过低 门 限 意 味 着 信 号 开始 %   &   此时整个端点检测可分为四段 静音段 过 渡 段 语音 段  图  给出了短时平均过零率的计算过程      图  短时平均过零率的计算过程 结束  实验时使用一个变量 表示当前状态  在处于静 ' 音段 时 如果 能 量 或过 零 率 超过 低 门 限 就 开 始 标 记 起 始 点  进 入 过 渡段  过 渡 段当 两 个 参数 值 都 回落 到 低 门 限 以 下 就 将当前状态恢复到静音状态  而如果过渡段中两个参数中的 任一个超过高门限 即被认为进入语音段  处于语音段时 如 (  1* ) /- #-*1-* - 图 给出了语音 一 二 三 四 五 的短时过零率图   果两 参 数降 低 到 门限 以 下 而且 总 的 计时 长 度 小 于 最 短 时 间 
电子设计工程  年第 期 ./0 1 门限 则 认为 是 一 段噪 音 否 则就 继 续 扫描 以 后 的语 音 数 据  同 样 存 在 着 丰 富 的 高 频 成 分 它 的 过 零 率 显 然 是 高 的 要 比 当 其 两 个 参 数 都 降 至 门 限 以 下 而 总 计 时 长 大 于 最 短 时 间 门 韵 母 高 很多 所 以 会在 韵 母 的部 分 造 成一 个 凹 形的 区 域  而 限 则 标 记 语 音 结 束 端 点 注 明 此 处 为 一 段 语 音 并 从 新 进 入 噪 声 的 过 零 率 与 声 母 相 比 有 时 会 大 于 声 母 的  有 时 会 小 于 静音段   改进型双门限法  噪声的影响  它 这和噪声的短时特性有关  但一般而言 对于处理低信噪 比的 语 音短 时 短 时过 零 率 都处 于 以 上情 况 中  所 以 当 我 们 寻 找 有 音 段 时 不 再 寻 找 过 零 率 大 于 某 一 阈 值 而 是 小 于 某 一 阈 值  并且 我 们 在这 里 对 于短 时 过 零率 设 置 阈值 时 我 们 从上 面 的 分 析 可 以 知 道 在 背 景 噪 声 较 小 时 短 时 过 零 只 设 置 一个 阈 值  因为 短 时 过零 率 不 像短 时 能 量 其 有 音 段 率 在 有 音 段 时 的 幅 值 较 大  但 是 如 果 我 们 适 当 的 叠 加 噪 声 的 值 和 过 度 段 的 值 相 差 不 大 设 置 多 个 阈 值 对 于 判 定 并 不 后 情况 就 会 变得 不 一 样了  如 果 我们 叠 加 一个 较 大 的 高 斯 能起到很好的作用 反而降低计算速度  白 噪 声 得 到 一 个 信 噪 比 较 低 的 语 音 段 并 作 短 时 过 零 率 分 低信噪比时的问题  析 我们 将 会 得到 一 个 完全 不 同 的结 果  如 图 是 一 段 语 音  在 低 信 噪 比 时 的 由 于 噪 声 的 能 量 较 大 能 量 曲 线 和 短 一 二 三 四 五 加 噪后 的 波 形图 和 短 时过 零 率 图 在 叠 加 时 过零 率 曲 线的 起 伏 较大 故 阈 值的 设 置 不能 太 低  所 以 当 高斯白噪声后 它的信噪比为    我们说话吐字太清时 能量较低 会出现漏判的情况  为了解 决这 个 问题 引 入 中值 滤 波 器对 于 能 量曲 线 和 短时 过 零 率 曲 线 进 行平 滑 处 理  在 这 里 采用 一 个 滑动 窗 口 其采 样 点 数 一 般 在  个点 然 后 选出 其 中 值  中 值 平 滑的 优 点 就 在 于 既 可 以 有 效 地取 出 少 量的 野 点 又不 会 破 坏数 据 在 两个 平 滑 段 之 间 的 阶跃 性 变 化  如 图    就 像我 们 展 示了 中 值 滤 波 前 后 的短时能量和短时过零率图谱  图  加噪后的语音波形图和短时过零率    !"# $%&' " '% %&  % %" "$ % " ' 现 在 附 加 上 原 来 纯 语 音 阶 段 的 短 时 过 零 率 和 波 形 图  如图  所示  图  中值滤波前后的短时能量图谱   *% %&  %+ ', %"  $% " "$ % & " $- % 图  纯语音的短时过零率和波形图   (% # ' '%) %&  % %" " !"# $%&  从 图 中 分 析 可 知  短 时 过 零 率 已 不 再 是 在 语 音 的 声 母 和 韵 母 处 有 较 大 的 过 零 率 在 静 音 区 有 较 小 的 过 零 率 而 现 在 的情 况 正 好相 反  在 无话 段 的 噪声 处 有 较大 的 过 零 率 比 声 母 韵 母 都 要大  这 实 际上 很 好 理解 在 高 斯白 噪 声 声 中  / 图  中值滤波前后的短时过零率图谱   *% %&  % %" ," %'  $% " "$ % & " $- %
薛胜尧 基于改进型双门限语音端点检测算法的研究 引入语音结束最小长度设定  为 了 更 符 合 人 说 话 时 的 语 言 特 性  引 入 语 音 段 结 束 最  实 验 小长度  这是为了考虑人发音是单词之间的静音区会有一个 此处 对 于一 段 语 音 一 二 三 四 五 进 行 分 析 并 对 其 最小 长 度表 示 发 音间 的 停 顿 就 是 在 小于 阈 值 时满 足 一 个 最 加入高斯白噪声使其信噪比达到 其采样频率为 其    小 长 度才 判 断 该语 音 结 束 实 际 上 相当 于 延 长了 语 音 尾 音 的 分帧长度为 个采样点 帧间重叠  这里我们用传统的采   长度  这样做可以减少对于静音区的误判断 减轻计算量  样方法和改进行的方法进行对比  分别如图 图 所示  在   总的来说  对 于 语 音的 判 决 我们 设 定 个门 限  和   图    中 统 一以 实 黑 纵线 表 示 语音 段 的 开 始 以 虚 黑 纵 线 代表能量阈值  代表过零率阈值  首先对于背景噪声算   表示语音段的结束  出它 的 能量 统 计 特性 定 出 能量 高 低 门限 短 时 过零 率 门 限  利 用 能 量门 限 来 确定 语 音 信号 的 初 始起 止 点 然后 根 据 过 零  结 论 率 精 确得 出 起 止点  在 本 文的 实 验 中 对 于 前 十帧 的 信 号 进 从图 中 可以 看 出 传统 形 的 方法 出 现 了 严 重 的 错 判 和 漏 行 短 时平 均 能 量和 过 零 率的 计 算 然后 根 据 算得 的 值 设 定 门 判情 况  这 种方 法 只 能判 断 出 一 三 五 这 个 读 音 的 端 点   限  根据能量门限算得一初始起点 其能量值超过  逐   其判断的准确率只有  在改进型的方法中一二三四五这 ! 次比 较 以 后 每 帧 的 平 均 幅 度 是 否 超 过 和 低 于 直 到 不   个读音的端点均得到了很好的判断  准确率达到了  " ! 满足则判断终止 记为  然后判断从 到 是否满足最    本 研 究 结 果 解 决 了 在 低 信 噪 比 情 况 下 传 统 双 门 限 法 无 法 准 小语音段长度  若满足 则 在 的基 础 上 加上 个 采 样点 以   确 判 断 语 音 端 点 的 问 题 在 此 改 进 型 方 法 下 语 音 端 点 判 断 表示语音结束最小长度  再从 点 处开 始 重 新判 断  若  的准确率大幅提高  到 的长度不满足 则原 不作为 初始 起 点 改记 下 一    参考文献  个平均幅度超过了低能量门限的帧为 依此类推  在找到  赵力 语音信号处理 北京 机械工业出版社  #$ % #&$% ' % 第一个平均幅度超过高能量的帧时停止比较  韩纪庆 张磊 郑铁然 语音信号处理 北 京 清 华 大 学出 #$ % #&$% ' 版社  % #$   ( )* +* % , -./011*  . 0- -*. /.#2$3456789552(- :'";%  夏敏磊 语音端点检测技术研究 杭州 浙江大学  #$ #$% "% 陆 东 钰 周 萍 基 于 双 门 限 算 法 的 语 音 端 点 检 测 和 声 韵 母 #"$ % 分离研究 桂林电子科技大学学报  #$( ( '% <6 .= >?86 9*=%1@ .@ 0.* -*. 1@=.*/ .A@ 1/. 011*. #$%*@* 6** . 5@-.*- -.@.=>  ' %  路青 起 白燕 燕 基 于 双 门 限 两 级 判 决 的 语 音 端 点 检 测 方 # $ 法 电子科技  #$% > "'% <6 B*= C*>D,E 1 1%.*- 0.* -*. /. 1 . .@ .@ @@ =/ #$%5@-.*- -.@.=> "'%  邓 艳 容 景 新 辛 杨 海 燕 等 语 音 端 点 检 测 研 究 计 算 机 #:$ > % #$% 系统应用    '%  5 1.=>E, )**>, 1*1> 1@%.*- -*. #$%2./0 /  ,00@*-1*.   '     % 图  传统型方法 +*=%  1**.1@ /. 图  改进型方法 +*=%  E/0. /.  " 电子设计工程 半月刊  欢迎订阅 年度 国内邮发代号  国际发行代号  订价  元 期 元 年       
分享到:
收藏