赵 媛
01 语音识别简介
02
03
04
声学模型
语音模型
研究发展
contents
语 音 识 别
什么是语音识别
语音识别(Automatic Speech Recognition,
ASR)所要解决的问题是让计算机能够“听懂”
人类的语言,将语音转化成文本。语音识别
是实现智能的人机交互的前沿阵地,是完全
机器翻译,自然语言理解等的前提条件。
1语 音 识 别 简 介
发 展 历 史
1950
单 一 模 式 识 别
1970
模 式 和 特 征 分 析
1980
H M M 模 型 被 用 于 构 建 声 学 模 型
和 随 机 语 言 模 型
2000
计 算 机 语 音 识 别 在 2 0 0 1 年 达 到
8 0 % 的 准 确 度
1990
微 处 理 器 推 出 带 来 重 大 进 步 ,
开 始 出 现 语 音 商 业 应 用
2010
机 器 学 习 算 法 和 计 算 机 性 能 的
进 步 带 来 了 更 有 效 的 训 练 深 层
神 经 网 络 ( D N N ) 的 方 法 。
基 本 原 理
音 节 之 间 有 明 显 可 感 知 的 界 限
音 节 : 汉 语 中 一 般 一 个 汉 字
英 语 中 一 个 元 音 音 素 或 一 个 元 音 音 素 与 辅 音 音 素 构 成 一 音 节
语 音 信 号 分 帧 : 语 音 信 号 的 一 定 长 度
音 素 是 声 音 的 最 小 单 位 。 我 们 学 习 的 2 0 个 元 音 和 2 8 个 辅 音 就 是 音 素 , 应 该 分 别 叫
2 0 个 元 音 音 素 和 2 8 个 辅 音 音 素 , 人 们 习 惯 把 它 们 称 为 4 8 个 音 标
每 个 H M M 对 应 于 一 个 w o r d 或 者 音 素 ( p h o n e m e )
在 语 音 处 理 中 , 一 个 w o r d 由 若 干 p h o n e m e ( 音 素 ) 组 成 ;
一 个 w o r d 表 示 成 若 干 s t a t e s , 每 个 s t a t e 表 示 为 一 个 音 素
基 本 原 理
基 本 原 理