logo资料库

语音控制信号识别系统的设计与实现.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
语音控制信号识别系统的设计与实现 王永和 (上海理工大学计算机工程学院, 上海 200093 ) 摘要:介绍了由 LabVIEW 编程系统设计的语音控制信号识别系统的设计和实现,该 系统的比较简便的相似度比较方式,以及该系统在多个控制领域内的应用前景。 关键词:语音控制信号,识别,LabVIEW DESIGNATION AND REALIZATION OF VOICE CONTROL SIGNAL RECOGNITION SYSTEM WANG YONG HE (UNIVERSITY OF SHANGHAI FOR SCIENCE AND TECHNOLOGY, SHANGHAI 20093 ) Abstract: introduce the designation and realization of voice control signal recognition system by LabVIEW, this system adopt the relatively brief method by comparing similar degree, as well as the appling foreground of this system in the field of control. Keyword: voice control signal, recognition, LabVIEW 引言 随着工业技术的发展,数字信号处理技术在生产生活中得到越来越广泛的应用,语音 识别是数字信号处理技术中的一个重要分支,孤立词语音识别是其中发展比较成熟的一个技 术,主要应用在语音控制,语音密码等应用领域。LabVIEW 是一个通用编程系统,不但能 够完成一般的数学与逻辑运算和输入输出功能,它还带有专门用于数据采集和仪器控制的库 函数和开发工具,尤其带有专业的数学分 析程序包,可以满足复杂的分析要求。使用 LabVIEW 开发语音控制信号识别系统比较方便而且实用性强,能够应用于由计算机控制的 语音控制信号识别系统中。 语音控制信号识别系统设计 语音控制信号识别系统组成 :语音采集、前端处理、端点检测、特征提取、模板库、 相似度比较、识别结果。系统原理图如图 1。 语音输入 预处理 端 点 检 测 特征 提取 相似度比较 识别结果 模板库 图 1 语音密码识别系统原理图 语音输入:语音信号由麦克风采集输入,声卡完成语音信号的 A/D 转换。输入语音的 品质对语音识别性能影响很大,对麦克风的耐噪声比性能要求较高,质量好的麦克风不仅提 高输入语音的质量,而且还有助于提高系统的鲁棒性,本系统使用的是创新的 H-3600 麦克 风,有较好的工作特性。声卡采用创新的 Sound Blaster16 声卡,对语音信号进行 12 位的 _______________________________________________________________________________www.paper.edu.cn
A/D 转换,能很好的保证 A/D 转换的精度,满足语音波形动态变换的要求。 预处理: 由于语音信号的平均功率谱受声门激励和口鼻辐射的影响,高频段大约在 800Hz 以上按 6dB/倍频程跌落,所以求语音信号频谱时,频率越高相应的成分越少,高频 部分频谱比低频部分的难求,为此在预处理中进行预加重处理。预加重的目的是提升高频部 分,是信号的频谱变得平坦,保持在低频到高频的整个频带中,能用同样的信噪比求频谱, 以便于频谱分析或声道参数分析。本系统中采用 0.95 的预加重,即在信号进一步处理之前加 上一个一阶的高通滤波器,对信号的频域进行平滑。 进行预加重数字滤波后,要对信号进行加窗分帧处理。一般每秒的帧数为 33~100 帧, 帧移与帧长的比值一般取 0~1/2,分帧是通过可移动的有限长度窗口进行加权的方法实现 的。本系统采用每秒 50 帧、0.5 的帧移和汉明窗进行加窗分帧处理。加哈明窗的可以使得在 每一帧信号的开始和结尾部分的不连续变得平滑连续,汉明窗的长度选取 150 点(即 10~20ms 的 持续时间)。 这样经过上面的预处理过程,语音信号被分割成一帧一帧的加过窗函数的短时信号,然后 再把每一个短时语音帧看成平稳的随机信号,经过端点检测就可以利用数字信号处理技术提取语 音特征参数了。 端点检测:端点检测的目的是从包含语音的一段信号中确定出语音的起点和终点。有 效的端点检测不仅能使处理时间见到最小,而且能排除无声段的噪声干扰,从而使识别系统 具有良好的识别性能。端点检测主要有短时能量、过零率、相关性等方法进行判断,本系统 采用短时波形峰值和峰值持续时间两个参数进行端点检测,波形峰值取 130,持续时间为 100ms。 特征提取:经过上面处理过的语音信号,就要对其进行特征参数分析,以确定语音特 征。识别参数可以选择平均能量、过零数、频谱、共振峰、倒谱、线性预测系数、相关系数 等参数。本系统主要是对语音信号的频谱进行提取分析。 模板库:模板库是用来存放控制信号模板的数据库,用来和通过特征提取的语音信号 进行比较以确定输入的语音的信号所对应的控制信号。模板库通常由专用的数据库构成,通 过循环查询比较以确定控制信号,本系统中使用 LabVIEW 编程系统簇函数构成模板库,提 高了查询比较的速度和系统的性能。该模板库里的语音模板是在系统的所处的环境中录制 10 个控制信号发音,男声、女声各一遍,以提高识别率。 相似度比较:经过特征提取的语音信号具有比较明显的频域和时域特征,与模板库里 的语音模板依次比较,确定相似度最大的控制信号作为识别出的信号。在输入语音信号和模 板信号进行相似度比较时,两个信号的长度一般情况下不一致,在这里我们使用了日本学者 板仓(Itakura)提出的动态时间伸缩算法(DTW),DTW 是把时间规整和距离测度计算结合 起来的非线性规整技术。动态时间规整的示意图如图 2 所示,如设:测试语音参数共有 I 帧 矢量,而参考模板共有 J 帧矢量,且 I≠J。相似度,则动态时间规整就是寻找一个时间规整 j j w(t) B A (输入模式) i i 中国科技论文在线_______________________________________________________________________________www.paper.edu.cn
图 2 动态时间规整的示意图 函数 j=w(i),它将测试矢量的时间轴 I 非线性地映射到模板的时间轴 j 上,并使该函数满足: [ iwRiTd ( ))( ] D min = [ iwRiTd ),( ( ))( ),( ] 式中, 是第 I 帧测试矢量 T(i)和第 J 帧模板矢量 R(j)之间的距离测度, D 则是处于最优时间规整情况下两矢量的距离。根据动态时间规整得到 I 帧到 J 帧的最佳映 射路径。经过动态时间规整以后信号进行相关性计算,得到两个信号的相关性系数,相关性 系数阙值取 0.9。 语音控制信号识别系统实现 该语音控制信号识别系统硬件平台为,P42.0GACPU、256M 内存、创新 Sound Blaster 16 声卡、创新 H-3600 麦克风,软件环境为 WINDOWS2000、LabVIEW6.0、VC++6.0。 语音模板库的建立是在噪音比较小的环境中录入语音控制信号 10 个,每个包括男声 和女声两组数据。每个信号簇里包括语音控制信号数据和控制信号文本信息。 语音控制信号识别的主界面如图 3 所示,在运行状态下当端点检测到语音控制信号时, 然后特征提取,开始与模板库中的控制信号依次进行相似度比较,界面上边比较灯亮,当有 输入语音信号与控制信号相关系数大于 0.9 时,得到相关系数最大的控制信号作为识别结果, 否则识别失败灯亮,从新进行语音输入。 我们通过 5 名男声和 5 名女声参加语音控制信号识别测试,测试结果如下表 1,测试 图 3 结果基本能满足需用场合要求。 表 1 测试 识别正确率 男声 92% 94% 女声 结束语:语音识别技术的逐渐成熟为生产和生活带来了越来越多的便利,语音控制信 号的识别可适用很多场合,诸如工业控制、家电控制、密码识别等等。该语音控制信号识别 系统系统经过多次调试、参数选择,语音信号识别达到比较高的识别率,而且界面友好,实 现起来比较容易,与实际控制系统结合可以给生产生活带来极大的方便。 中国科技论文在线_______________________________________________________________________________www.paper.edu.cn
参考文献: [1] 赵力.语音信号处理.北京:机械工业出版社,2003,3. [2] 易克初,田斌,付强.语音信号处理.北京:国防工业出版社,2000,3. [3] 李晶皎,顾树生.掌上电脑的语音命令系统实现,2000 中国控制与决策学术年会 论文集. 中国科技论文在线_______________________________________________________________________________www.paper.edu.cn
分享到:
收藏