matlab实现语音识别思路.doc

发布时间：2022-06-20 发布人：admin 分类：说明书资料大小：0.11M 资料格式：doc 举报版权申诉

81abbceb-31ed-49fe-ba6f-918b1c968761.doc.pdf-第1页.png

第1页 / 共3页

81abbceb-31ed-49fe-ba6f-918b1c968761.doc.pdf-第2页.png

第2页 / 共3页

81abbceb-31ed-49fe-ba6f-918b1c968761.doc.pdf-第3页.png

第3页 / 共3页

文本预览

《数据结构与算法》课程项目实施报告题目：虚拟智慧图书馆组号：任课教师： 64 组管业鹏组长： 12121494 刘致金成员： 12121308 袁其杰成员： 12121494 刘致金成员： 12123145 王佳雯成员： 12123113 李超然联系方式： 18818216508 二零一四年九月八日

一、课程项目实施方案 1、 8 段数字均衡设计；简要思路为，先取一段语音，经过一截止频率为 fs 的低通滤波器，然后对其以 2fs 的采样频率进行采样，然后设计 8 个带通滤波器，对原始信号分八路（30~100Hz，100~200Hz，200~500Hz，500~1KHz，1～2KHz， 2K~4Kz，4K~8Kz，8K~16Kz）用八个带通滤波器进行滤波处理，通过调节各个滤波器的系数，来调节各频段的信号幅度，达到所需均衡效果。 2、项目组5 人的语音识别；该部分主要分为两个步骤实现： 1）先将小组成员语音信息存库，再进行特征提取，特征提取一般分为三部分：自相关分析、计算 LPC 系数、计算倒谱系数，从而生成每个组员的特征码本。 2）模式匹配，从实时环境中提取语者语音信息，在从识别语音中提取特征矢量序列，根据比较，选出平均量化误差最小的码本所对应的说话人为识别结果。 3）测试指标：准确识别率、测试者说话内容的随意性、准确识别时环境的嘈杂程度（坑干扰性）、识别速度。

3、 20 字以上的语义识别；从图 1 可知,整个语音识别系统包括四部分:预处理、特征参数提取、训练和识别。其中预处理包括加重和端点检测。预加重一般通过一个数字滤波器 1-μ(z-1) 来实现,μ值接近于 1 。 1)、端点检测：采用基于短时能量和过零率的端点检测算法,从一段信号中检测出语音信号的起始点和结束点； 2)、特征参数提取：采用 MFCC 系数。MFCC 参数考虑了人耳的听觉特性, 且没有任何前提假设，所使用 MFCC 参数提取出特征参数； 3)、训练和识别— 离散马尔科夫模型 (DHMM)。 DHMM 的模型参数少, 对训练数据量要求不高, 且计算量少, 易于实现,所以这里采用 DHMM。一个 DHMM 系统可用π,A,B 三项参数来描述。在DHMM 语音识别系统的训练、识别：要用到矢量量化(VQ)，VQ 的关键技术包括码本设计和搜索策略两方面。生成码本最基本的算法是 LBG 算法。在利用 LBG 算法之前, 首先需要得到一个初始码本, 采取的方法是分裂法。码本大小为 128,27 =128,所以经过 7 次分裂就可以了。对于码本搜索, 简单的方法是比较所有码字和输入矢量的距离,距离最小的便是目标码字, 这种搜索方法称为 “全搜索”; DHMM 模型初始参数的设定：考虑语音信号的时序特点和系统的实时性, 选用自左向右的无跨越 HMM。在很多汉语识别实验中状态数为 5 时识别的效果最好；初始概率矩阵π的初值较易确定, 通常设置为均匀分布之值或非零的随机数, 对识别率的影响不是太大。模板的训练: 设定 DHMM 模型的初始参数后, 就可以进行语音模板的训练。由于有大量观察序列参与训练, 在此, 采用修正后的 Baum-Welch 算法进行参数的优化重估；语音的识别识别过程其实就是模板的匹配过程, 而匹配的过程就是利用对数形式的 Viterbi 算法, 计算测试语音序列在每个 HMM 下的最大输出概率。取输出概率最大的 HMM 对应的模型, 即为最后的输出结果。 4）设计指标：识别语音字符的准确度和速度，是否适用于不同性别、年龄说话者的语音，是否能区分出同音异义字词，以及程序和语音包的空间达到最小。

分享到：

赞收藏

资料库

matlab实现语音识别思路.doc

相关推荐

大数据

热门标签

最新资料