基于MATLAB的语音端点检测.doc-资料库

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第1页.png

第1页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第2页.png

第2页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第3页.png

第3页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第4页.png

第4页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第5页.png

第5页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第6页.png

第6页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第7页.png

第7页 / 共9页

dfc868b1-e16c-46f2-9c29-9510d4964910.doc.pdf-第8页.png

第8页 / 共9页

南京理工大学紫金学院电子工程与光电技术系毕业设计(论文)开题报告学生姓名：郑皓学号： 110404150 专业：通信工程设计(论文)题目：基于 MATLAB 的语音端点检测指导教师: 郭天文 2014 年 1 月 16 日

开题报告填写要求 1．开题报告（含“文献综述”）作为毕业设计（论文）答辩委员会对学生答辩资格审查的依据材料之一。此报告应在指导教师指导下，由学生在毕业设计（论文）工作前期内完成，经指导教师签署意见及所在专业审查后生效； 2．开题报告内容必须用黑墨水笔工整书写或按教务处统一设计的电子文档标准格式（可从教务处网页上下载）打印，禁止打印在其它纸上后剪贴，完成后应及时交给指导教师签署意见； 3．“文献综述”应按论文的格式成文，并直接书写（或打印）在本开题报告第一栏目内，学生写文献综述的参考文献应不少于 15 篇（不包括辞典、手册）； 4．有关年月日等日期的填写，应当按照国标 GB/T 7408—2005 《数据元和交换格式、信息交换、日期和时间表示法》规定的要求，一律用阿拉伯数字书写。如“2007 年 3 月 15 日”或“2007-03-15”。

毕业设计（论文）开题报告 1．结合毕业设计（论文）课题情况，根据所查阅的文献资料，每人撰写 2000 字左右的文献综述：文献综述基于 MATLAB 的语音端点检测 1.前言 1.1 研究背景及意义语音技术的应用己经成为一个具有竞争性的高新技术产业，它正在直接与办公、交通、金融、公安、商业、旅游等行业的语音咨询与管理，工业生产部门的语声控制，电话、电信系统的自动拨号、辅助控制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨，并且有望成为下一代操作系统和应用程序的用户界面。语音处理内容涉及到计算机科学、模式识别、信号处理、生理学、语音学、心理学等学科，还涉及到信号和信息处理系统、通信和电子系统等具体应用领域。例如，神经网络理论、模糊集理论、小波理论是当前热门的研究领域，这些领域的研究常常把语音处理任务作为一个应用实例，而语音处理研究者也从这些领域的研究进展中找到突破口，使语音处理技术研究取得进展[l]。从技术角度讲，语音信号处理是信息高速公路、多媒体技术、办公自动化、现代通信及智能系统等新兴领域应用的核心技术之一。由于噪声的干扰，往往使得整个系统的识别率下降，有学者用一个多话者的数字识别系统做了如下一个实验。首先对所有记录的语音用手工找出准确的端点，得到它们的识别率;然后逐帧(帧长为 15ms)加大端点检测的误差，在每次加大误差的同时得到它们的识别率。结果表明在端点检测准确时识别率为 93%的系统，当端点检测的误差在士 60ms(4 帧)时，识别率降低了 3%；在士 90ms(6 帧)时，降低了 10%；而当误差在进一步加大时，识别率急剧下降。研究表明，即使在安静环境下语音识别系统中一半以上的识别错误都是因为语音端点检测的不准确所造成的。 1.2 语音端点检测研究现状及存在的问题一般来说，理想的语音端点检测算法应当能够满足以下几点：

（1）门限值应该可以对背景噪声的变化有一定的适应性。（2）将短时冲击噪声和人的顺嘴等瞬间超过门限的信号纳入无声段而不是有声段。（3）对于爆破音的寂静段，应将其纳入语音的范围而不是无声段。（4）应该尽可能避免在检测中丢失鼻韵和弱摩擦音等与噪声特性相似、短时参数较少的语音。（5）应该避免使用过零率作为判决标准而带来的负面影响。现有的算法存在的主要问题有两点： 1.在具有较强噪声的环境下，语音端点检测往往存在着大量的误判，不利于后续的处理过程； 2.在高噪声的环境下不能有效的检测出语音信号段，造成了有效信息的丢失。 1、基于特征的语音端点检测的算法步骤大致如下：（1）预处理：包括滤波，预加重，分帧，加窗等，这里要考虑滤波器参数的选择，分帧时帧长长度的选择，加窗窗函数的选择。（2）特征提取：在时域或者频域提取能反映语音本质特征的声学参数，如短时能量，短时过零率等。特征提取目的是将输入信号转化为特征参数，然后利用特征参数进行语音段与无声段的区分。特征提取是语音端点检测的关键问题，特征参数选择的好坏直接影响到语音端点检测的准确率的高低。（3）确定门限：语音段最开始的几帧一般为无声段，根据无声段的特征值大小确定门限值，一般选择较大和较小两个门限值 Tmax 和 Tmin，且 Tmin< Tmax，Tmin 很容易被超过，数值较小，对信号变化很敏感，Tmax 数值较大，语音信号要一定的强度才能超过。（4）端点检测：确定门限后就可以进行端点检测，根据门限值来区分有语音段和噪声段，得出检测结果。 2.采用的方法双门限语音端点检测基于短时能量和短时过零率的双门限端点检测原理双门限法是利用短时能量和过零率的乘积进行检测的。在基于短时能量和过零率的双门限端点检测算法中首先为短时能量和过零率分别确定两个门限，一个为较低的门限，对信号的变化比较敏感，另一个是较高的门限。当低门限被超过时，很有可能是由于很小的噪声所引起的，未必是语音的开始，当高门限被超过并且在接下来的时间段内一直超过低门限时，则意味着语音信号的开始。

该算法的原理简述如下：对上述两种特征作一个统计估计，得到两个门限值，利用短时能量检测浊音，短时过零率检测清音，两者配合从而确定语音的端点。由于采集的声音信号中最初的短时段多为无声或背景噪声，这样就可以利用已知为“静态”的最初几帧(一般取 10 帧)信号计算其过零率阀值 zcr 及高、低能量阀值 amp2(低能量阀)和 amp1 (高能量阀)。过零率公式： zcr )( i  1 N  n 1  )( nx i  ( nx i  )1 （1.1）计算 amp2 和 amp1 时，首先计算最初 10 帧信号中每帧的短时平均能量或平均幅度 E ，最大值记为 max，最小值记为 min。本文在计算短时能量之前，先经过一个滤波器，高通滤波器，此为预加重滤波器，目的在于滤除低频干扰，尤其是 50Hz 或 60Hz 的工频干扰，将对于语言识别更为有用的高频部分的频率进行提升，在计算短时能量之前应用该滤波器，还可以起到消除直流漂移、抑制随机噪声和提升清音部分能量的效果。其关键代码为 amp=sum(abs(enframe(filter([1-0.98],1,x),FrameLen,FrameInc)),2)。文中能量门限调整代码为： amp1=min(amp1,max(amp)/4); amp2=min(amp2,max(amp)/8); 根据语音信号的实际情况对门限值进行调整，以便更好的对语音端点进行检测。其端点检测的流程如下所述：开始进行端点检测之前，首先为短时能量和过过零率分别确定两个门限 amp1、amp2、zcr1、zcr2, 其中 amp2、zcr2 分别为短时能量和过零率比较低的门限，其数值比较小，对信号的变化比较敏感，很容易就会超过。另外 amp1、 zcr1 是比较高的门限，数值比较大，信号必须达到一定的强度，该门限才可能被超过。低们限被超过未必就是语音信号的开始，有可能是时间很短的噪声引起的。高门限被超过则可以基本确信是由于语音信号引起的。整个语音信号的端点检测可以分为四段：静音、过度段、语音段、结束。程序中使用一个变量 status 来表示当前所处的状态。在静音段，如果能量或过零率超越了低门限，就应该开始标记起始点，进入过渡段。在过渡段中，由于参数的数值比较小，不能确信是否处于真正的语音段，因此只要个参数的数值都回落到低门限以下，就可以确信进入语音段落。而如果在过渡段中两个参数中的任一个超过了高门限，就可以确信进入语音段了。一些突发性的噪声也可以引起短时能量或过零率的数值很高，但是往往不能维持足够的长的时间，如门窗的开关、物体的碰撞等引起的噪声。这些都可以通过设定最短时间门限来判别。当前状态处于语音时，如果两个参数的值下降低到低门限以下，而且总的记时长度小于最短时间门限，则认为这是一段噪音，继续扫描以后的语音数据，否则

就标记好结束端点，并返回。 3.总结语音信号端点检测是语音信号处理中非常重要的一项预处理技术，因此是语音信号处理中不可缺少的一步。随着语音相关学科的发展和新兴技术的不断出现必将使得未来的语音系统逐渐智能化，而作为关键技术之一的语音端点检测也将随之不断提高。如何有效地结合多种抗噪性能好的特征参数，使其更简洁、完善、精确、高效、鲁棒性好等将是今后研究的一个重要方面。

参考文献 [1]蒋立平.数字逻辑电路与系统设计[M].北京:北京电子工业出版社,2008. [2]谢自美.电子线路综合设计[M].武汉:华中科技大学出版社,2006. [3]张国兴.用单片机制作数字频率计[J].电子制作，2005,(2):32. [4]谢煌,黄为.基于VHDL语言设计频率计[J].北京：北京现代电子技术，2003，14. [5]顾巨峰，周浩洋，朱建华.基于可编程逻辑器件（Lattice）的多功能数字频率计［J］. 电子工程师,2002,1:28-32. [6]施剑鸣.单片机测频技术及测量精度的提高[A].江苏:江苏省计量测试学会2005年论文集,2005. [7]刘雪根.数字频率计的误差分析[J].自动化与仪表，1996,3:23-24. [8]田良.综合电子设计与实践[M].南京:东南大学出版社,1999. [9]杜树春.单片机应用系统开发实例详解[M].北京:机械工业出版社,2007. [10]王东峰,等.单片机 C 语言应用 100 例[M].北京:电子工业出版社,2009. [11]李平,等.单片机入门与开发[M].北京:机械工业出版社,2008. [12]刘守义,等.单片机技术基础[M].西安:西安电子科技大学出版社,2007. [13]马忠梅,等.单片机 C 语言 Windows 环境编程宝典[M].北京:北京航空航天大学出版社,2003. [14]李建忠.单片机原理及应用（第二版）[M].西安:西安电子科技大学出版社,2008. [15]陈海宴.51 单片机原理及应用[M].北京:北京航空航天大学出版社,2010.

毕业设计（论文）开题报告２．根据课题要求及文献综述，给出本课题要研究或解决的问题和拟采用的研究手段（途径）：开题报告 1.课题题目基于 MATLAB 的语音端点检测 2.本课题的目的和意义语音信号的端点检测是数字语音信号处理的基础环节，语音信号由于存在各种杂音，包括无声段、清音段和浊音段等，使得端点比较模糊，给端点检测带来了很大的困难。针对这个问题，结合实际语音信号的特点，采用短时能量和过零率相结合的双门限的算法来实现对给定语音文件的端点检测。 3.研究或解决的问题及工作内容 1.了解相关语音处理的基本知识和 MATLAB/SIMULINK 编程方法 2.掌握语音短时平稳的特点，对信号进行分帧，应用窗函数对信号进行加窗处理，并能够进行短时傅立叶变换求得每帧频谱,掌握语音信号短时能量谱的计算 3.掌握语音信号过零率判断的方法 4.采用 MATLAB 利用双门限方法对语音信号进行端点检测 5.了解 GUI 技术设计端点检测界面 6.总结毕业设计完成论文 4.拟采用的研究方法采用双门限检测算法对语音端点进行检测

资料库

基于MATLAB的语音端点检测.doc

相关推荐

开发技术

热门标签

最新资料