logo资料库

基于CNN的连续语音说话人声纹识别.pdf

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
09-17046-4
电信科学 2017 年第 3 期 研究与开发 基于 CNN 的连续语音说话人声纹识别 吴震东,潘树诚,章坚武 (杭州电子科技大学,浙江 杭州 310018) 摘 要 :近 年 来 ,随 着 社 会 生 活 水 平 的 不 断 提 高 ,人 们 对 机 器 智 能人 声 识 别 的 要 求 越 来越 高 。 高 斯 混 合 — 隐 马 尔 可 夫 模 型 (Gaussian of mixture-hidden Markov model, GMM-HMM)是 说 话 人 识 别 研 究 领 域 中 最 重 要 的 模 型 。 由 于 该 模 型 对 大 语 音 数 据 的 建 模 能 力 不 是 很 好 ,对 噪 声 的 顽 健 性 也 比 较 差 ,模 型 的 发 展 遇 到 了 瓶 颈 。 为 了 解 决 该 问 题 , 研 究 者 开 始 关 注 深 度 学 习 技 术 。 引 入 了 CNN 深 度 学 习 模 型 研 究 连 续 语 音 说 话 人 识别 问 题 , 并 提 出 了 CNN 连 续 说 话 人 识 别 (continuous speaker recognition of convolutional neural network, CSR-CNN)算 法 。 模 型 提 取 固 定 长 度 、符 合 语 序 的 语 音 片 段 ,形 成 时 间 线 上 的 有 序 语 谱 图 ,通 过 CNN 提 取 特 征 序 列 ,经 过 奖 惩 函 数 对 特 征 序 列 组 合 进 行 连 续测 量 。 实 验 结 果 表 明 ,CSR-CNN 算 法 在 连 续 — 片 段 说 话 人 识 别 领 域 取 得 了 比 GMM-HMM 更 好 的 识 别 效 果 。 关 键 词 :连 续 语 音 ;语 谱 图 ;GMM-HMM;深 度 学 习 中图分类号:TP393 文献标识码:A doi: 10.11959/j.issn.1000-0801.2017046 Continuous speech speaker recognition based on CNN WU Zhendong, PAN Shucheng, ZHANG Jianwu Hangzhou Dianzi University, Hangzhou 310018, China Abstract: In the last few years, with the constant improvement of the social life level, the requirement for speech recognition is getting higher and higher. GMM-HMM (Gaussian mixture-hidden Markov model) have been the main method for speaker recognition. Because of the bad modeling capability of big data and the bad performance of robustness, the development of this model meets the bottleneck.In order to solve this question, researchers began to focus on deep learning technologies. CNN deep learning model for continuous speech speaker recognition was introduced and CSR-CNN model was put forward. The model extracts fixed-length and right-order phonetic fraction to form an ordered sound spectrograph. Then input the voiceprint extract from CNN model to a reward-penalty function to continuous measurement. Experimental results show that CSR-CNN model has very good recognition effectin continuous speech speaker recognition field. Key words: continuous speech, sound spectrograph, GMM-HMM, deep learning 收 稿 日 期 :2017-01-22;修 回 日 期 :2017-02-13 基 金 项 目 :浙 江 省 自 然 科 学 基 金 资 助 项 目 (No.LY16F020016);国 家 重 点 研 发 计 划 经 费 资 助 项 目 (No.2016YFB0800201);浙 江 省 重 点 科 技 创 新 团 队 项 目(No.2013TD03) Foundation Items: Zhejiang Natural Science Foundation of China (No.LY16F020016), National Key Research and Development Program of China (No.2016YFB0800201), Zhejiang Province Science and Technology Innovation Program (No.2013TD03) 2017046-1
研究与开发 研究与开发 1 引言 有深度的前馈神 经 网 络 ,用 浅 层 的 学 习 方 法 往 往 得 不 到 理 想的效果。 当层 数 越 深 时 ,深 层 网 络 的 梯 度 就 会 变 得 很 不 60· · 随 着 移 动 互 联 网 、物 联 网 等 技 术 的 高 速 发 展 ,实 现 人 稳定, 这使得深 层 次 的 梯 度 对 之 前 层 的 关 联 度 几 乎 丧 失 , 与电子产品之间的自由交互越来越受到人们的重视 。 声纹 从 而 导 致 模 型 训 练 效 果 急 剧 恶 化 。 就 在 这 一 年 ,Hinton 等 识别技术在实现这一目标中扮演着非常重要的角色 。 语音 人 [9]首次提出了非 监 督 贪 心 逐 层 训 练 算 法 生 成 的 模 型——— 识 别 技 术 正 在 走 向 实 用 。 苹 果 公 司 于 2011 年 收 购 了 Siri 深度 置 信 网 络 [10](deep belief network,DBN),每 一 层 都 用 训 公 司 ,并 在 iPhone 4 上 应 用 了 语 音 识 别 功 能 ,但 当 时 识 别 练数据来初始化 深 度 神 经 网 络 , 优 化 了 深 度 网 络 结 构 ,一 体 验 不 理 想 。 2013-2015 年 ,苹 果 公 司 相 继 收 购 了 拥 有 识 定 程 度 上 解 决 BP 算 法 [11]带 来 的 局 部 最 优 解 问 题 。 卷 积 神 别 整 个 短 语 的 语音 识 别 技 术 的 Novauris 公 司 和 英 国 语 音 经网络 [12](convolutional neural network,CNN)被 提 出 并 大 量 技 术 初 创 公 司 VocalIQ。 与 此 同 时 ,谷 歌 在 2011 年 收 购 了 应用于图像特征挖掘。 语 音 通 信 公 司 Say Now 和 语 音 合 成 公 司 Phonetic Arts, 2009 年 以 来 , 深 度 学 习 方 法 逐 渐 被 引 入 声 纹 识 别 领 2015 年 入 资 中 国 以 导 航 为 主 的 问 问 公 司 , 并 推 出 带 有 语 域,用以对语音的深层特征加以挖掘,构建更充分的声纹识 音识别技术的智能手表。 Amazon 在 2011-2013 年,相继收 别 模 型 ,如 递 归 神 经 网 络 [13](recurrent neural network,RNN) 购 语 音 识 别 领 域 的 Yap 语 音 识 别 公 司 、Evi 语 音 技 术 公 司 以及 RNN 的各种变型(LSTM 模型)[14]。 RNN 模型的网络结 和 Ivona Software 语音技术公司。Facebook 于 2013 年后,相 构可以表达前后 信 息 相 关 的 时 序 效 果 ,所 以 在 语 音 识 别 方 继 收 购 了 Mobile Technologics 和 Wit.ai 语 音 识 别 公 司 , 实 面有很大的优 势 。 但 目 前 而 言 ,RNN 及 LSTM 模 型 均 未 达 现了用户可以通过 语 音 来 控 制 应 用 程 序 、穿 戴 设 备 和 控 制 到超越 GMM 模型的声纹识别能力。 机器人等功能。 微软的 Cortanna 和微软小冰在记录用户使 本 文 将 目 前 更 为 成 熟 的 深 度 神 经 网 络 CNN 模 型 引 入 用习惯和智能对话 等 功 能 ,使 人 们 生 活 更 加 智 能 化 。 国 内 声 纹 识 别 ,构 建 连 续—片 段 语 音 ,基 于 有 序 语 谱 图 的 CNN 百度语音、科大讯 飞 等 科 技 公 司 在 语 音 识 别 领 域 也 在 进 行 声纹识别系统取得了比 GMM 模型更好的声纹识别能力。 大量的应用基础及应用性研究 。 与语 音 识 别 技 术 发 展 阶 段 相 似 ,声 纹 识 别 技 术 也 在 走 2 模型建立 向实用。 现有技术在长文本、低噪声声纹识别时,已达到较 声 纹 识 别 是 生 物 特 征 识 别 [15]中 的 一 种 ,也 被 称 作 说 话 高识别率。 但是在 片 段 语 音 环 境 下 ,常 用 的 线 性 预 测 频 率 人识别,可分为 说 话 人 辨 别 和 说 话 人 确 认 两 类 。 前 者 是 在 倒 谱 系 数 (linear prediction cepstrum coefficient) 和 Mel 频 很 多 说 话 人 的 情 况 下 判 断 是 其 中 哪 个 说 话 人 所 说 的 , 是 率 倒 谱 系 数 (mel frequency cepstrum coefficient) 等 声 学 特 “多对一”的过程;后 者 是 判 断 为 某 个 说 话 人 说 所 的 。 根 据 征,识别率明显下降。 在模式识别方面,静态说话人模型包 不同的任务需求 和 应 用 场 景 , 选 取 不 同 的 声 纹 识 别 技 术 , 括 :高 斯 混 合 模 型 [1](Gaussian mixture model)、高 混 合 通 用 如在支付交易或 者 远 程 登 录 的 时 候 需 要 确 认 技 术 ,而 在 缩 背 景 模 型 (Gaussian mixture model-universal background 小目标范围的时候则需要辨别技术。 model)和支持向量机 [2](support vector machine,SVM)。 这些 传统的声纹识别模型一般都是在隐马尔可夫模型(hidden 静态模型在用特征 描 述 目 标 说 话 人 的 时 候 有 很 好 的 效 果 。 Markov model, HMM) [16]的 基 础 上 建 立 的 ,而 HMM 是 一 种 一般来说 , 传 统 的 重 要 模 型 包 括 Douglas Reynolds 提 出 的 基于统计的特征 识 别 方 法 。 换 句 话 说 ,是 根 据 声 学 模 型 和 UBM-MAP-GMM 模 型 、Patrick Kenny 提 出 的 Joint Factor 语言模型,通过 最 大 后 验 概 率 来 识 别 。 现 阶 段 基 于 深 度 学 Analysis[3-6] 和 NajimDehak 提 出 的 i-vector [7,8]。 在 一 定 程 度 习 的 语 音 识 别 ,模 型 通 过 对 大 量 数 据 的 训 练 ,自 动 地 学 习 上,可以把现有短 语 音 声 纹 识 别 模 型 视 为 不 充 分 的 声 学 特 数据中的特征。 表 现 一 个 人 声 学 层 面 的 特 征 有 好 多 种 ,包 征,该模型尚不能很完美地描述说话人声纹特点。 括解剖学声学特征(倒频谱 、共 振 峰 等 )、语 法 特 征 、韵 律 特 2006 年, 深层结构模型在识别领域开始发光发热,可 征 、通 道 信 息 、语 种 、语 调 和 习 语 等 [17]。 传 统 的 声 纹 识 别 方 以说是语音、图像识别领域突破性发展的重要一年。 2006年 法需要研究者对这些声学特征进行人 工分类。 而在深度学 之前,研究者们通 过 各 种 方 式 来 搭 建 深 层 的 架 构 来 实 现 语 习 中 ,研 究 者 不 用 知 道 声 学 特 征 的 相 关 信 息 ,机 器 会 自 动 音和图像的识别,但 是 都 得 不 到 好 的 结 果 。 因 为 训 练 一 个 地学习数据中的声纹特征信息。 显著提高了研究者的研究 2017046-2
61· · 效 率 ,并 且 经 过 对 大 量 数据 的 学 习 ,机 器 能 够 学 到 更 加 完 备的特征,效果比人工分类更好。 2.1 声纹识别系统 电信科学 2017 年第 3 期 (2) 在 音 频 处 理 中 ,Mel 频 率 倒 谱 系 数 [18]表 示 声 音 短 期 的 一个完整 的 说 话 人 识 别 系 统 由 声 学 特 征 提 取 、统 计 模 功率谱。 将功率谱取对数带入 Mel 频率倒谱系数中: 型和分值计算组成,如 图 1 所 示 。 系 统 训 练 的 过 程 是 从 原 始的波形信号中提取语音的声 学 特 征 ,如 词 、音 节 、音 素 及 (3) 声 韵 母 等 ,并 经 过 训 练 得到 一 个 声 学 模 型 ,这 个 模 型 作 为 Mel 频 率 倒 谱 系 数 从 音 频 片 段 的 倒 谱 表 示 中 派 生 而 识别语音声学特征基元 的 模 板 ,模 型 结 合 研 究 者 通 过 对 人 来,Mel 倒 谱 系 数 和 倒 谱 系 数 的 区 别 在 于 ,Mel 频 率 倒 谱 的 类声学特征研究得到的 语 言 模 型 ,经 过 解 码 器 的 处 理 输 出 频带划分在 Mel 刻 度 上 是 等 距 的 ,这 比 一 般 的 对 数 倒 谱 更 相应的识别结果。 加符合人类的听觉系统。 音频的响应函数如下: 图 1 说 话 人 识 别 系 统 结 构 现 有 的 语 音 识 别 模 型 运 用 效 果 最 好 的 为高 斯 混 合 模 型 (GMM),其 基 本 过 程 为 提 取 语 音 MFCC 特 征 序 列 ,运 用 统计模型对输出序列进 行 概 率 评 分 ,依 据 评 分 结 果 进 行 识 别判断。 具体过程如下。 2.2 特征提取 MFCC 的 整 个 提 取 过 程 如 图 2 所 示 。 其 中 ,帧 周 期 持 续 10~25 ms,在 这 期 间 ,声 音 被 认 为 是 静 止 的 。 帧 周 期 取 20 ms 的时候,移码一般取 10 ms。 预修正的部分是高通滤波器 。 数学表达式如下: (4) 其 中 ,M 是 三 角 滤 波 器 的总 数 ,m 的 取 值 范 围 是 0≤ m
研究与开发 研究与开发 62· · 给 出 一 连 串 的 特 征 向 量 X={x1, … , xt, … , xm} 和 说 话 人 模 型的依赖参数 λ={ωi, μi, Σi},这些参数各自的迭代公式 如下: 其中,第 i 次的后验概率为: (7) (8) (9) (10) (11) 图 4 CSR-CNN 模 型 结 构 系 统 先 将 时 域 上 的 说 话 人 语 音 信 息 转 换为 语 谱 图 (语 音 在 时 域 上 的 表 示 是 没 有 任 何 声 学 特 征 的 ), 然 后 用 训 练 数 据 训 练 一 个 CNN 模 型 ,并 用 测 试 数 据 检 测 模 型 正 确 率 。 训练 好 这 个 模 型 , 将 待 检 测 人 的 语 谱 图 分 片 传 入 该 模 型 , 并提取它输出特征向量。 通过特征向量和标签特征向量得 到一个 lost 方程, 如果 lost 方程计算评分大于 给 定 的 一 个 阈 值 ,那 么 给 出 一 个 惩 罚 函 数 值 ,反 之 给 出 一 个 奖 励 函 数 值。 这两个函数最终决定着说话人识别函数的结果 。 当说 话人 识 别 函 数 达 到 某 个 阈 值 时 , 就 判 定 身 份 验 证 成 功 ,反 之验证失败。 3.2 CNN 模型 经 分 值 估 算 ,达 到 某 概 率 阈 值 之 上 ,判 定 输 入 语 音 为 说话者语音。 概念估算计算式如下: (12) 卷 积 神 经 网 络 可 分 为 输 入 层 、卷 积 层 、池 化 层 和 输 出 层 ,如 图 5 所 示 ,其 中 卷 积 层 和 池 化 层 是 卷 积 神 经 网 络 特 有的。 多个卷积核滤波器对原始输入图像卷积来提取多个 抽象特征(线条 、边 缘 等 ),池 化 层 对 卷 积 层 进 行 池 化 处 理 , 3 CNN 连续说话人识别算法 CSR-CNN 使提取的特征更加紧凑并减少神经元个数。 使用多个卷积 语 音 方 面 的 深 度 学 习模 型 一 般 都 是 RNN 模 型 及 它 的 变 形 LSTM 模 型 。 因 为 RNN 模 型 引 入 了 定 向 循 环 , 能 够 处 理 输 入 之 间 前 后 关 联 的 问 题 。 这 种 识 别 技 术 一 般 应 用 在 机 器 翻 译 、图 像 描 述 生 成 等 领 域 。 在 说 话 人 识 别 领 域 , RNN 模 型 的 识 别 效 果 并 不 是 很 理 想 。 卷 积 神 经 网 络 在 很 多 识 别 问 题上已经有了很好的识别 效 果 ,比 如 手 写 字 体 的 识 别 、人 脸 识 别 、交 通 标 志 分 类 、行 人 检 测 、图 像 标 注 和 行 为检测 [19-24]。 因 为 CNN 模 型 在 图 像 领 域 的 优 越 表 现 ,本 文 想 通 过 图 像 的 方 法 来 达 到 连 续 — 片 段 语 音 说 话 人 识 别 的 目 的 。 本 文 结 合 CNN 模 型 和 声 纹 的 频 谱 图 特 征 ,在 说 话 人 识 别 领 域 提 出 连 续 — 片 段 语 音 说 话 人 识 别 (continuous speech recognition of convolutional neural network,CSR-CNN) 算 法 。 3.1 算法结构 CSR-CNN 由 CSR 和 CNN 两 个 模 型 构 成 。 CSR 是 连 续—片段说话人识别模型 ,CNN 为特征提 取 模 型 , 其 结 构 如图 4 所示。 2017046-4 层 和 池 化 层 的 组 合 可 以 提 取 更 加 具 像 的 特 征 (眼 睛 、鼻 子 等)。 最后,通过 softmax 分类器和全连接层输出结果。 卷积 神 经 网 络 有 3 个 主 要 的 特 征 :局 部 感 知 域 、权 值 共 享 和 池 化层。 图 5 CNN 模 型 结 构
63· · 3.2.1 局部感知域 电信科学 2017 年第 3 期 θk 和 j 分别前一层输出单元和隐层单元的阈值 。 卷积神经 网 络 中 , 本 文 把 很 小 的 邻 近 区 域 作 为 输 入 , 输入数 据 和 特 征 提 取 窗 口 做 卷 积 ,并 通 过 一 个 激 活 函 如 图 6 所 示 ,5 dpi×5 dpi 的 卷 积 核 窗 口 和 输 入 图 像做 卷 数(ReLU)得到下一层的特征图 。 卷积表达式如下: 积,得到下一层图像的 一 个 像 素 点 。 其 中 被 卷 积 部 分 就 是 局部感知域,每一个局 部 感 知 域 在 下 一 隐 层 中 都 有 一 个 神 经元与之对应。 图 6 局 部 感 知 区 域 示 意 3.2.2 权值共享 (13) 得到的 特 征 图 作 为 下 一 个 池 化 层 的 输 入 ,进 行 降 维 处 理。 降维处理对系统有 3 个作用:让特征更加紧凑,特出显 著 特 征 ; 减 少 系 统 的 训 练 参 数 ,n 尺 寸 的 池 化 层 可 以 减 少 n2 倍的参数;增加系统的顽健性。 池化层的数学表达式如下 : (14) 其 中 ,f(*) 是 激 活 函 数 , 系 统 中 使 用 的 激 活 函 数 是 ReLU,其数学表达式如下: (15) 如 图 7 所 示 , 每 个 卷 积 核 都 带 有 一 组 自己 的 权 值 和 经过多 个 卷 积 层 和 池 化 层 后 ,提 取 到 的 特 征 经 过 最 后 bais 值 并 会 自 左 向 右 、 自 上 向 下 依 次和 输 入 图 像 做 卷 积 。 一个全连接层得到一 组 特 征 向 量 ,并 通 过 分 类 器 实 现 最 后 这 就 说 明 该 卷积 核 特 征 映 射 图 的 每 一 个 神 经 元 都 在 检 测 的分类。 同 一 特 征 ,只 是 这 些 特 征位 于 图 片 的 不 同 地 方 ,这 使 得 识 3.3 CSR 模型 别目标在不断移动时也能被识别 。 引 入 CSR 模 型 的 目 的 是实 现 在 连 续 语 音 的 情 况 下 , 能 够 不 间 断 地 确 定 目 标 说 话 人 的 身 份 。 CSR 模 型 结 构 如 图8 所示。 图 7 卷 基 层 特 征 图 提 取 示 意 CSR 模型中,设置一个奖惩函数,数学表达式如下: 图 8 CSR 模 型 结 构 图 7 举例 了 3 个 特 征 映 射 图 ,每 一 张 特 征 映 射 图 都 是 通过一个权值共享的卷积核和输入图像卷积所得到 。 (16) 每个卷积 核 只 能 提 取 一 种 特 征 ,训 练 中 需 要 初 始 化 多 其 中 ,lostn 是 第 n 个 待 检 测 语 音 数 据 在 通 过 CNN 模 个卷积核。 就计 算 量 而 言 , 以 取 20 个 特 征 为 例 , 其 需 要 型 训 练 后 得 到 的 归 一 化 特 征 向 量 和 目 标 特 征 向 量 的 误 差 520 个 参 数 ,和 全 连 接 神 经 网 络 23 550 个 参 数 相 比 ,大 大 函数,b 是根据模型识别率给定的误差阈值 。 降低了计算量。 由式(16)可以看出,当 lostn 的值低于给定阈值的时 候,给 系 统 搭 建 了 一 个 有 L 个 卷 积 隐 层 的 CNN。 其 中 X= 予说话人识别函数一个奖励函数,反之给予一个惩罚函数。 (x0, x1, …, xN)是 输 入 向 量 ,H=(h0, h1,…,hL)是 中 间 层 的 输 出 向 量 ,Y=(y0, y1,…,yM)是 模 型 的 实 际 输 出 ,D=(d0, d1,…, dM) 系统识别函数的数学表达式如下 : (17) 是 目 标 输 出 ,Vij 是 前 一 层 输 出 单 元 i 到 隐 层 单 元 j 的 权 其 中 ,φn 是 判 断 第 n 时 刻 的 系 统 状 态 ,f(lostn)是 第 n时 重 ,Wjk 是 隐 层 单 元 j 到 前 一 层 输 出 单 元 k 的 权 重 。 另 外 , 刻的奖惩函数。 2017046-5
研究与开发 研究与开发 64· · 设 定 说 话 人 识 别 函 数 φn 取 值 区 间 为 [c,d],即 当 说 话 的 迭 代 步 数 为 5 000 步 , 在 5 000 步 时 ,lost 方 程 趋 于 平 人 识 别 函 数 达到 最 大 值 或 者 最 小 值 时 , 它 的 值 就 不 会 改 稳,模型趋于最优,最终 lost 的值为 0.03。 当步长在 0.02时, 变,并且给出一个识别阈值 w。 本实验的 CNN 模 型 的 识 别 率 比 较 高 ,最 终 识 别 率 为 96%。 当 φn>w 时 ,则 表 示 目 标 说 话 人 身 份 鉴 定 成 功 ;当 p
65· · 电信科学 2017 年第 3 期 Dallas, TX, USA. New Jersey: IEEE Press, 2010: 4890-4893. [2] JOACHIMS T. Making large-scale SVM learning practical [J]. Technical Reports, 1998, 8(3): 499-526. [3] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker verification using adapted gaussian mixture models [J]. Digital Signal Processing, 2000, 10(1-3): 19-41. [4] HEBERT M. Text-dependent speaker recognition[M]. Heidelberg: Springer, 2008: 743-762. [5] VOGT R J, LUSTI C J, SRIDHARAN S. Factor analysis modeling for speaker verification with short utterances [J]. Journal of Substance Abuse Treatment, 2008, 10(1): 11-16. [6] VOGT R,BAKER B,SRIDHARAN S. Factor analysis subspace estimation for speaker verification with short utterances [C]// 图 11 语 音 序 列 1 和 语 音 序 列 2 的 系 统 输 出 函 数 第 9 个 目 标 说 话 人 语 音 片 段 经 过 CNN 模 型 被 误 判 为 攻 击 INTERSPEECH 2008, Conference of the International Speech 者语音。但是将 CNN 结果输入 CSR 模型后,这个误判没有 影 响 系 统 的 整 体 的 结 果 。 该 系 统 对 CNN 模 型 的 误 判 率 有 一定的容错率,这提高了单 CNN 模型的识别率。 5 结束语 Communication Association, Sept 6-10, 2008, Brisbane, Australia. [S.l.: s.n.], 2008: 853-856. [7] KANAGASUNDARAM A, VOGT R, DEAN D, et al. i-Vector based speaker recognition on short utterances[C] // INTERSPEECH 2011 (DBLP), August 27 -31. 2011, Florence, Italy. [S.l.: s.n.], 2011. 本 文 主 要 介 绍 了 声 纹 识 别 的 发 展进 程 和 目 前 应 用 [8] LARCHER A, BOUSQUET P, KONG A L, et al. i-Vectors in 比 较 广 泛 的 几 个 深 度 学 习 模 型 , 并 阐 述 了 这 几 个 模 型 在 语 音 识 别 领 域 中 的 应 用 和 发 展 现 状 。 最 后 通 过 结 合 语 谱 图 、CNN 模 型 , 在 连 续 声 纹 识 别 中 提 出 了 CSR-CNN 算 法 。 the context of phonetically-constrained short utterances for speaker verification[C] // ICASSP, March 25-30, 2012, Kyoto, Japan. New Jersey: IEEE Press, 2012: 4773-4776. [9] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality of data with neural networks [ J ] . Science , 2006 , 313 ( 5786 ) : 语 音 作 为 人 机 交 互 的 一 个 关 键 接 口 ,在 人 工 智 能 方 面 504-507. 有非常广泛的 实 际 应 用 前 景 。 这 几 年 的 研 究 表 明 ,深 度 学 习 技 术 在 声 纹 识 别 领 域 能 够 明 显 提 高 声 纹 识 别 系 统 的 准 确率。 [10] ZOU M, CONZEN S D. A new dynamic Bayesian network (DBN) approach for identifying gene regulatory networks from time course microarray data[J]. Bioinformatics, 2005, 21(1):71-79. [11] RUMELHART D E, MCCLELLAND J L. Parallel distributed 虽 然 深 度 学 习 技 术 在 语 音 领 域 取 得 了 很 大 的 成 果 ,但 processing[M] // Cambridge: The MIT Press, 1986: 45-76. 是为了能够实 现 更 加 高 效 的 人 际 关 系 ,还 有 很 多 技 术 难 点 [12] ZORRIA SSATINE F, TANNOCK J D T. A review of neural 要克服。 比如:很深层训练网络的梯度精确度问题 、在实际 应用中的噪声 顽 健 性 问 题 等 。 其 中 ,噪 声 顽 健 性 问 题 是 现 在语音识别中 非 常 热 门 的 话 题 。 现 阶 段 实 际 应 用 中 ,带 噪 声的语音识别率一般都不是很高 。 未来对于语音识别系统 的研究方向应 该 更 加 倾 向 于 仿 人 脑 听 觉 系 统 ,随 着 生 物 解 剖 学 的 发 展 ,使 模 型 不 断 接 近 人 脑 的 语 音 识 别 特 性 ,将 在 这一领域持续研究。 参考文献: networks for statistical process control [J]. Journal of Intelligent Manufacturing, 1998, 9(3): 209-224. [13] CHEN S H, HWANG S H, WANG Y R. An RNN-based prosodic information synthesizer for Mandarin text-to-speech [J]. IEEE Transactions on Speech & Audio Processing, 1998, 6 (3): 226-239. [14] TAN T, QIAN Y, YU D, et al. Speaker-aware training of LSTM-RNNS for acoustic modeling [C]// 2016 IEEE International Conference on Acoustics, Speech and Signal Processing, March 20 -25, 2016, Shanghai, China. New Jersey: [1] SU D, WU X, XU L. GMM-HMM acoustic model training by a IEEE Press, 2016: 5280-5284. two level procedure with Gaussian components determined by [15] GALES M J F. Maximum likelihood linear transformations for automatic model selection[C]// 2010 IEEE International Conference HMM-based speech recognition [J]. Computer Speech & on Acoustics Speech and Signal Processing, March 14-19, 2010, Language, 1998, 12(2): 75-98. 2017046-7
研究与开发 研究与开发 66· · [16] RAMASWAMY G N, GOPALAKRISHAN P S. Compression of LI G. Intelligent Information Processing VIII, Heidelberg: acoustic features for speech recognition in network environments Springer, 2016: 81-90. [C]//1999 IEEE International Conference on Acoustics, Speech [24] PARMAKSIZOGLU S, ALCI M. A novel cloning template and Signal Processing, May 15, 1998, Seattle, WA, USA. New designing method by using an artificial bee colony algorithm for Jersey: IEEE Press, 1998: 977-980. edge detection of CNN based imaging sensors[J]. Sensors, 2011, [17] PAN J, LIU C, WANG Z, et al. Investigation of deep neural 11(5): 5337-5359. networks (DNN) for large vocabulary continuous speech recognition: why DNN surpasses GMMS in acoustic modeling [作 者 简 介] [C]//2012 International Symposium on Chinese Spoken Language Processing, Dec 5-8, 2012, Kowloon Tong, China. New Jersey: IEEE Press, 2012: 301-305. [18] HUANG Z, TANG J, XUE S, et al. Speaker adaptation of 吴 震 东 (1976-),男 ,杭 州 电 子 科 技 大 学 网 络 空 间 安 全 学 院 讲 师 ,主 要 研 究 方 向 为 生 物 特 征 识 别 、生 物 密 钥 、网 络 安 全 、自 然 语 RNN-BLSTM for speech recognition based on speaker code[C] // 言 处 理 、人 工 智 能 等 。 IEEE International Conference on Acoustics, Speech and Signal Processing, March 20 -25, 2016, Shanghai, China. New Jersey: IEEE Press, 2016: 5305-5309. [19] SAATCI E, TAVASANOGLU V. Multiscale handwritten character recognition using CNN image filters [C] // 2002 International Joint Conference on Neural Networks, May 12 -17, 2002, Honolulu, HI, USA. New Jersey: IEEE Press, 2002: 2044-2048. [20] LIU K, ZHANG M, PAN Z. Facial expression recognition with CNN ensemble [C] // International Conference on Cyberworlds, Sept 28-30, 2016, Chongqing, China. New Jersey: IEEE Press, 2016: 163-166. [21] JURISIC F, FILKOVIC I, KALAFATIC Z. Multiple-dataset traffic sign classification with OneCNN[C] // Iapr Asian Conference on Pattern Recognition, Nov 3-6, 2015, Kuala Lumpur, Malaysia. New Jersey: IEEE Press, 2015: 614-618. [22] ZHANG L, LIN L, LIANG X, et al. Is faster R-CNN doing well for 潘 树 诚 (1991-),男 ,杭 州 电 子 科 技 大 学 通 信 工 程 学 院 硕 士 生 ,主 要 研 究 方 向 为 基 于 深 度 学 习 的 声 纹 、人 脸 识 别 研 究 等 。 章 坚 武 (1961-),男 ,杭 州 电 子 科 技 大 学 通 信 工 程 学 院 教 授 、 博 士 生 导 师 , 主 要 研 究 方 向 为 移 动 通 信 系 统 、 多 媒 体 通 信 技 术 、 pedestrian detection? [M]. Heidelberg: Springer-Verlag: 443-457. 网 络 安 全 等 。 [23] ZHENG Y, LI Z, ZHANG C. A hybrid architecture based on CNN for image semantic annotation [M] // SHI Z Z, VADERA S, 2017046-8
分享到:
收藏