研究与开发
研究与开发
64· ·
设 定 说 话 人 识 别 函 数 φn 取 值 区 间 为 [c,d],即 当 说 话
的 迭 代 步 数 为 5 000 步 , 在 5 000 步 时 ,lost 方 程 趋 于 平
人 识 别 函 数 达到 最 大 值 或 者 最 小 值 时 , 它 的 值 就 不 会 改
稳,模型趋于最优,最终 lost 的值为 0.03。 当步长在 0.02时,
变,并且给出一个识别阈值 w。
本实验的 CNN 模 型 的 识 别 率 比 较 高 ,最 终 识 别 率 为 96%。
当 φn>w 时 ,则 表 示 目 标 说 话 人 身 份 鉴 定 成 功 ;当 p
65· ·
电信科学 2017 年第 3 期
Dallas, TX, USA. New Jersey: IEEE Press, 2010: 4890-4893.
[2]
JOACHIMS T. Making large-scale SVM learning practical
[J].
Technical Reports, 1998, 8(3): 499-526.
[3] REYNOLDS D A, QUATIERI T F, DUNN R B. Speaker
verification using adapted gaussian mixture models [J]. Digital
Signal Processing, 2000, 10(1-3): 19-41.
[4] HEBERT M. Text-dependent speaker recognition[M]. Heidelberg:
Springer, 2008: 743-762.
[5] VOGT R J, LUSTI C J, SRIDHARAN S. Factor analysis
modeling for
speaker verification with short utterances
[J].
Journal of Substance Abuse Treatment, 2008, 10(1): 11-16.
[6] VOGT R,BAKER B,SRIDHARAN S. Factor analysis subspace
estimation for speaker verification with short utterances [C]//
图 11 语 音 序 列 1 和 语 音 序 列 2 的 系 统 输 出 函 数
第 9 个 目 标 说 话 人 语 音 片 段 经 过 CNN 模 型 被 误 判 为 攻 击
INTERSPEECH 2008, Conference of
the International Speech
者语音。但是将 CNN 结果输入 CSR 模型后,这个误判没有
影 响 系 统 的 整 体 的 结 果 。 该 系 统 对 CNN 模 型 的 误 判 率 有
一定的容错率,这提高了单 CNN 模型的识别率。
5 结束语
Communication Association, Sept 6-10, 2008, Brisbane, Australia.
[S.l.: s.n.], 2008: 853-856.
[7] KANAGASUNDARAM A, VOGT R, DEAN D, et al. i-Vector
based speaker recognition on short utterances[C] // INTERSPEECH
2011 (DBLP), August 27 -31. 2011, Florence, Italy. [S.l.: s.n.],
2011.
本 文 主 要 介 绍 了 声 纹 识 别 的 发 展进 程 和 目 前 应 用
[8] LARCHER A, BOUSQUET P, KONG A L, et al. i-Vectors in
比 较 广 泛 的 几 个 深 度 学 习 模 型 , 并 阐 述 了 这 几 个 模 型
在 语 音 识 别 领 域 中 的 应 用 和 发 展 现 状 。 最 后 通 过 结 合
语 谱 图 、CNN 模 型 , 在 连 续 声 纹 识 别 中 提 出 了 CSR-CNN
算 法 。
the context of phonetically-constrained short utterances
for
speaker verification[C] //
ICASSP, March 25-30, 2012, Kyoto,
Japan. New Jersey: IEEE Press, 2012: 4773-4776.
[9] HINTON G E, SALAKHUTDINOV R R. Reducing the dimensionality
of data with neural networks [ J ] . Science , 2006 , 313 ( 5786 ) :
语 音 作 为 人 机 交 互 的 一 个 关 键 接 口 ,在 人 工 智 能 方 面
504-507.
有非常广泛的 实 际 应 用 前 景 。 这 几 年 的 研 究 表 明 ,深 度 学
习 技 术 在 声 纹 识 别 领 域 能 够 明 显 提 高 声 纹 识 别 系 统 的 准
确率。
[10] ZOU M, CONZEN S D. A new dynamic Bayesian network (DBN)
approach for
identifying gene regulatory networks from time
course microarray data[J]. Bioinformatics, 2005, 21(1):71-79.
[11] RUMELHART D E, MCCLELLAND J L. Parallel distributed
虽 然 深 度 学 习 技 术 在 语 音 领 域 取 得 了 很 大 的 成 果 ,但
processing[M] // Cambridge: The MIT Press, 1986: 45-76.
是为了能够实 现 更 加 高 效 的 人 际 关 系 ,还 有 很 多 技 术 难 点
[12] ZORRIA SSATINE F, TANNOCK J D T. A review of neural
要克服。 比如:很深层训练网络的梯度精确度问题 、在实际
应用中的噪声 顽 健 性 问 题 等 。 其 中 ,噪 声 顽 健 性 问 题 是 现
在语音识别中 非 常 热 门 的 话 题 。 现 阶 段 实 际 应 用 中 ,带 噪
声的语音识别率一般都不是很高 。 未来对于语音识别系统
的研究方向应 该 更 加 倾 向 于 仿 人 脑 听 觉 系 统 ,随 着 生 物 解
剖 学 的 发 展 ,使 模 型 不 断 接 近 人 脑 的 语 音 识 别 特 性 ,将 在
这一领域持续研究。
参考文献:
networks for statistical process control
[J]. Journal of Intelligent
Manufacturing, 1998, 9(3): 209-224.
[13] CHEN S H, HWANG S H, WANG Y R. An RNN-based
prosodic information synthesizer for Mandarin text-to-speech [J].
IEEE Transactions on Speech & Audio Processing, 1998, 6 (3):
226-239.
[14] TAN T, QIAN Y, YU D, et al. Speaker-aware training of
LSTM-RNNS
for
acoustic modeling
[C]//
2016
IEEE
International Conference on Acoustics, Speech and Signal
Processing, March 20 -25, 2016, Shanghai, China. New Jersey:
[1] SU D, WU X, XU L. GMM-HMM acoustic model training by a
IEEE Press, 2016: 5280-5284.
two level procedure with Gaussian components determined by
[15] GALES M J F. Maximum likelihood linear transformations for
automatic model selection[C]// 2010 IEEE International Conference
HMM-based speech recognition
[J]. Computer Speech &
on Acoustics Speech and Signal Processing, March 14-19, 2010,
Language, 1998, 12(2): 75-98.
2017046-7
研究与开发
研究与开发
66· ·
[16] RAMASWAMY G N, GOPALAKRISHAN P S. Compression of
LI G.
Intelligent
Information Processing VIII, Heidelberg:
acoustic features for speech recognition in network environments
Springer, 2016: 81-90.
[C]//1999 IEEE International Conference on Acoustics, Speech
[24] PARMAKSIZOGLU S, ALCI M. A novel cloning template
and Signal Processing, May 15, 1998, Seattle, WA, USA. New
designing method by using an artificial bee colony algorithm for
Jersey: IEEE Press, 1998: 977-980.
edge detection of CNN based imaging sensors[J]. Sensors, 2011,
[17] PAN J, LIU C, WANG Z, et al. Investigation of deep neural
11(5): 5337-5359.
networks
(DNN)
for
large
vocabulary
continuous
speech
recognition: why DNN surpasses GMMS in acoustic modeling
[作 者 简 介]
[C]//2012 International Symposium on Chinese Spoken Language
Processing, Dec 5-8, 2012, Kowloon Tong, China. New Jersey:
IEEE Press, 2012: 301-305.
[18] HUANG Z, TANG J, XUE S, et al. Speaker adaptation of
吴 震 东 (1976-),男 ,杭 州 电 子 科 技 大 学 网
络 空 间 安 全 学 院 讲 师 ,主 要 研 究 方 向 为 生
物 特 征 识 别 、生 物 密 钥 、网 络 安 全 、自 然 语
RNN-BLSTM for speech recognition based on speaker code[C] //
言 处 理 、人 工 智 能 等 。
IEEE International Conference on Acoustics, Speech and Signal
Processing, March 20 -25, 2016, Shanghai, China. New Jersey:
IEEE Press, 2016: 5305-5309.
[19] SAATCI E, TAVASANOGLU V. Multiscale handwritten character
recognition using CNN image filters [C] // 2002 International Joint
Conference on Neural Networks, May 12 -17, 2002, Honolulu,
HI, USA. New Jersey:
IEEE Press, 2002: 2044-2048.
[20] LIU K, ZHANG M, PAN Z. Facial expression recognition with
CNN ensemble
[C] // International Conference on Cyberworlds,
Sept 28-30, 2016, Chongqing, China. New Jersey: IEEE Press,
2016: 163-166.
[21] JURISIC F, FILKOVIC I, KALAFATIC Z. Multiple-dataset
traffic sign classification with OneCNN[C] // Iapr Asian Conference
on Pattern Recognition, Nov 3-6, 2015, Kuala Lumpur, Malaysia.
New Jersey: IEEE Press, 2015: 614-618.
[22] ZHANG L, LIN L, LIANG X, et al. Is faster R-CNN doing well for
潘 树 诚 (1991-),男 ,杭 州 电 子 科 技 大 学 通
信 工 程 学 院 硕 士 生 ,主 要 研 究 方 向 为 基 于
深 度 学 习 的 声 纹 、人 脸 识 别 研 究 等 。
章 坚 武 (1961-),男 ,杭 州 电 子 科 技 大 学 通
信 工 程 学 院 教 授 、 博 士 生 导 师 , 主 要 研 究
方 向 为 移 动 通 信 系 统 、 多 媒 体 通 信 技 术 、
pedestrian detection? [M]. Heidelberg: Springer-Verlag: 443-457.
网 络 安 全 等 。
[23] ZHENG Y, LI Z, ZHANG C. A hybrid architecture based on
CNN for image semantic annotation [M] // SHI Z Z, VADERA S,
2017046-8