logo资料库

孤立词语音识别系统的一种实用精简算法.pdf

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
  第 2 卷第 2 期 2003 年 6 月     江 南 大 学 学 报 (自 然 科 学 版) Journal of Southern Yangtze University( Natural Science Edition)      Vol. 2  No. 2 J un.  2003  文章编号 :1671 - 7147 (2003) 02 - 0142 - 03 孤立词语音识别系统的一种实用精简算法 李 挺 (江南大学 机械工程学院 ,江苏 无锡 214063) 摘  要 : 提出了一种以降低识别计算代价为目标的孤立词语音识别系统的设计算法. 语音识别系 统要求具有很强的实时性 ,同时应保证较好的识别率. 该设计对语音信号采用了处理速度较快的 时间轴和幅值上规正化的数据压缩算法 ,并采用加权离散度法进行识别 ,算法精确 、简便 、可靠 ,适 合作为小型语音识别产品的主要算法. 关键词 : 语音识别 ; 孤立词 ; 聚类分析 中图分类号 : TP 391. 42 文献标识码 : A A Practical and Eff icient Arithmetic for Isolated Speech Recognition System (School of Mechanical Engineering , Southern Yangtze University , Wuxi 214063 , China) L I Ting reducing expense in recognition calculation. Speech recognition has strict Abstract : The paper provides a method for designing a set of isolated speech recognition system for the purpose of time requirement and high recognition accuracy. More rapid data compress arithmetic is used to process speech signal data by normalizing them in time and amplitude. A more efficient , easier and higher dependability recognition method the method of discrete degree added by power is provided in the paper. The arithmetic is suited for designing a small speech recognition production. Key words : speech recognition ; isolated word ; clustering analysis real   语言是人类最重要的交流工具 ,也应是人机之 间最有效的通信手段. 目前 ,各国对机器语音识别 及合成的研究已达到相当的水平 ,语音合成也早已 商品化. 语音识别较合成难度大 ,商品化困难 ,但对 于孤立语音识别 ,一些识别方法已相当有效. 作者 提出了一种以降低识别计算代价为目标的孤立语 音识别方案 ,按该方案设计的语音识别程序甚至能 在 IBM PC/ XT 一级计算机上达到较好的识别效 果 ,当然其也可移植到单片机系统上形成实用化的 语音识别产品.   收稿日期 :2002 - 05 - 23 ;  修订日期 :2003 - 03 - 10. 作者简介 : 李挺 (1968 - ) ,男 ,江苏无锡人 ,工学硕士 ,讲师. 1  语音识别系统结构方案 语音识别系统采用模拟带通滤波器组进行抽 取 ,经模拟量数值量化后 ,由软件进行幅值规整和 非时间规整 ,形成语音特征参数矩阵. 硬件及软件 系统结构如图 1 所示 1   语音识别硬件配置为 : 1) 语音输入接口卡 ;3) A/ D 转换卡 ;4) 麦克风. IBM PC 兼容机 ; 2) . © 1994-2006 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
第 2 期 李 挺 :孤立词语音识别系统的一种实用精简算法 341 i′段在 S 中对应的末行行号为 l i′,则当 l i′- 1 ∑ i = 1 J ∑ j = 1 | S ( i - 1) j - S ij| < i′·ΔL < ∑ | S ( i - 1) j - S ij| l ′ i J ∑ j = 1 i = 1 有  S i′j = 1 l i′- l i′- 1 l i · ∑ K = l i′- 1 + 1 S kj (4) (5) 图 1  语音识别软硬件结构原理 Fig. 1  The principle diagram of software and hardware for speech recognition 2  特征抽取 一般认为语音在 10~30 ms 短时段内平稳 2 , 根据采样定理 ,采样率设置为 200 Hz ,以对应 5 ms 采样周期. 语音信号经 J 组 (本系统 J = 16) 带通滤 波后 ,进行检波平滑. 系统能自动判断语音的开始 和结束. 一旦判定语音开始 ,就将取得的 16 个通道 的语谱值 ,依次存放到内存 ,作为矩阵第一行 S1 ,等 二次采样得第 2 组 16 个数据 ,作为矩阵第 2 行 S2 , ……语音结束前的 N 行数据 ,构成一个 I ×J ( J = 16) 的原始语谱矩阵 S . S = [ S1 , S2 , …, Si , …, S I ] T =   S 11 S 21 … S I1 S 12 … S 1 J S 22 … S 2 J S I2 … S IJ 3  数据压缩 = { S ij} I ×J (1) 3. 1  语音原始谱矩阵的时间规整 语音原始谱矩阵数据的压缩方法可按以下两 个步骤进行. 3. 1. 1  计 算 语 音 原 始 谱 矩 阵 总 长 度  采 用 Chebyshev 范数距离度量 ,则对应于原始谱矩阵 S 的特征轨迹总长度 L 为 I J i = 1 ∑ j = 1   L = ∑ | S ( i - 1) j - S ij| 式中 ,设 S 0 j = 0 ,  j = 1 ,2 ,3 , …J . 3. 1. 2  原始谱矩阵在时间上的段长计算  将特征轨 迹分为 M 段 ,则对应于特征轨迹各分段段长 ΔL 为 (2)     ΔL = L / M (3) 3. 1. 3  原始谱矩阵在时间上重抽样 重抽样按下列原则进行 : 对第 i′段   1 ≤i′≤ M , 这样 ,由 S i′j可得到经时间上重分段的语音. 特征矩阵 S S = S 11 S 21 … S M 1 S 12 … S 1 j … S 1 J S 22 … S 2 j … S 2 J = S M 2 … S M j … S MJ     { S i′j} M ×J (6) 经重新分段后的新的特征矩阵 S 较 S , 数据得 到了压缩 ,此外由 (4) , (5) 式可见 ,对应于语音平稳 段 ,数据得到了更大压缩. 因此对原始谱的时间分 段法 ,可更有效地压缩语音平稳段的冗余信息. 3. 2  语音数据的幅值规整 对应于同一语音 ,两次发音程度上的差异会导 致同一单词间语音样本之间差距增大. 为了克服这 一缺点 ,对 S 矩阵作幅度归一化处理.      Δ= S max - S min Δi′j = S i′j - S min (7) 式 (7) 中 , S max , S min分别为矩阵 S 中最大和最小元 素 ,归一化按下式进行 Δi′j Δ ] IN T    αi′j = [ (2 n - 1) (8) 式 (8) 中 ,算符[·]表示取整运算 , n 为 A / D 量化后 二进制的位数 ,构成的新矩阵 A 即为幅值归一化后 新特征矩阵 A = α11 α12 … α1 J α21 α22 … α2 J … αM 1 αM 2 … αMJ = {αi′j} M ×J (9) 4  参考模式的建立及其聚类分析 语音是一种由生物学特点起因的模式 ,这种模 式所含有的语义信息往往和讲话人的各种生理和 心理的状况有关. 从发声的过程中 ,设法收集由上 述因素引起的每一个附加特征足够的统计信息较 为困难. 由于上述因素 ,使得语音信号带有某种程 度的随机性和模糊性. 在建立语音参考模式时 ,若 仅使用某一次的语音输入作为参考模式 ,就不可能 反映出语音的模糊性 ,而必须多次重复输入 (训练) 同 © 1994-2006 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
441              江 南 大 学 学 报 (自 然 科 学 版)             第 2 卷 一语音 ,才能总结出该语音的统计特性4 ,见图 2. 离相等 , 在利用距离进行判别时 , 不可能判别 X 是 属于 Xi 还是 Xj , 这时就必须利用离散度解决这个 问题. 由图可知 , Xi 类的语音的参考模式的离散度 较大 ,因此 ,可以认为 X 属于 Xi . 图 2 中 ,定义 Xi 的 离散度λj 为 图 2  语音聚类分析图 Fig. 2   The clustering analysis diagram for speech recognition   由于语音的随机性和模糊性 ,对于同一单词发 音 n 次 , n 个发音得到 n 个语音样本 , 形成一个区 域的集合 Xi ,不同词的发音可以得到不同区域的集 合 Xj , Xk 等. 分别找出各个区域的聚类中心 Xi , Xj , Xk …,将待识别的语音样本 X 与各区域的聚类 中心Xi , Xj , Xk …相比较 ,从而确定其属于哪一类. 整个语音识别系统的参考模式可以表示为语 音参考模式类的集合. S = { X1 , X2 , …, Xr} (10) Xi = { Xi1 , Xi2 , …, Xi n} , Xij为第 i 个词第 j 次 λi = 1 n n ∑ j = 1 1 M ×J M ∑ p = 1 J ∑ q = 1 5  语音识别 αij pq - αi pq (14) 由式 (12) , (13) , (14) 可以求得 Xi 类 ( i = 1 , 2 , …, r) . 语音参考模式的聚类中心分别为 A1 , A2 , A3 , …, A r 现有新的识别语音模式为    A = {αpq} M ×J M J p = 1 (15) ∑ q = 1 αpq - αi 定义距离 d i = ∑ pq 由 (15) 式可以求得距离向量为    D = [ d1 , d2 , d3 , …, d r ] T 将向量 D 中元素按从大到小排列得    D′= [ d1′, d2′, d3′, …d r′] T 则 d1′所对应参考模式 A i 即为 A 识别后的结 果归类模式 ,其中 i = 1 ,2 , …, r. 若 d1′= d2′所对应参考模式为Ai和Aj , j = 1 ,2 , …, r ; j ≠i 且λi >λj . 则 A i为 A 识别后所得结果的 归类模式. = {αij pq} M ×J (11) 6  结  语 文中介绍的语音识别方法 ,已由作者在 PC/ XT 上用汇编程序成功实现 ,并已对机器人实现一系列 动作的控制. 比如 : 步行机器人 5 的“前 进”、“后 退”、“左转”、“右转”,“前进 x 步”命令等 ;以及控制 工业机械手“抓取 A 物体”,“A 上放上 B”,“A 上卸 下 B”命令等. 其中 x ,A ,B 分别是数字和物体名. 使 用结果表明该算法实时性强 ,识别率较高. αij 训练所得的参考模式 11 αij αij 21 αij … αij M 1 αij Xij = A ij = 12 … αij 1 J 22 … αij 2 J M 2 … αij MJ 词语数 i = 1 ,2 , …, r ; 训练次数 j = 1 ,2 , …n . Xi 的聚类中心 Xi 为 n ∑ j = 1 1 n n   Xi = A i = 1 n Aij = {αi pq} M ×J (12) pq = αij pq ∑ j = 1 式中      αi (13) 此外 ,本方法还应用了离散度概念 , 应用离散 度主要为了解决以下问题 :假定语音样本 X 与参考 模式类 Xi , Xj , Xk …的聚类中心 Xi , Xj , Xk …的距 参考文献 : 1 李挺. 孤立语音识别系统在自动编程中的应用研究 D . 南京 :南京航空航天大学 ,1993. 2 RABINER L R , SAMBUR M R. An al gorithm for determining the endpdints of isolated utterancesJ . Tech J,1975 ,54(2) :297 - 315. 3 许才刚. 数控机床的语音交互式控制系统研究与实现 D . 南京 :南京航空学院 ,1990. 4 王松年. Fuzzy 聚类分析的语音识别 J . 模糊数学 ,1984 ,127 :47 - 54. 5 尉忠信 、竺钦尧 、李挺 ,等. 智能双足步行机器人技术报告 Z . 南京 :南京航空航天大学机电工程学院 ,1995. (责任编辑 :彭守敏) © 1994-2006 China Academic Journal Electronic Publishing House. All rights reserved. http://www.cnki.net
分享到:
收藏