中南大学硕士学位论文基于HMM的孤立词语音识别系统的研究姓名:王明奇申请学位级别:硕士专业:电工理论与新技术指导教师:覃爱娜20070520
硕士学位论文摘要语音识别(SpeechRecognition)是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别技术以语音信号处理为研究对象,涉及语言学、计算机科学、信号处理、生理学、心理学等诸多领域,是模式识别的重要分支。该技术有非常广阔的应用前景。而目前应用最为成功的语音识别系统大多是基于隐马尔可夫模型(HiddenMarkovModel)的识别系统,所以深入了解和掌握隐马尔可夫模型(H姗)是十分有意义的。论文主要研究语音识别的基本原理和不同的识别算法,并着重研究隐马尔可夫模型(HMM)和基于此模型的语音识别算法。在此基础上论文构建了一个基于隐马尔可夫模型(H姗)的孤立词语音识别系统。该系统完成了语音识别的主要过程,包含预处理、端点检测、特征参数提取和模式匹配。预处理主要进行了预加重和加窗分帧,端点检测采用了双门限方法,特征参数提取采用的是线性预测分析方法,选取了美尔倒谱系数(MFCC)作为主要的特征参数,利用隐马尔科夫模型(HMM)完成了汉语语音“0”一“9”的训练和识别。多人实验的结果表明,该系统的识别率达到90%左右,可以满足系统的设计要求。论文最后,还针对H姗和DTW(动态时问规整)两种不同的训练和识别算法作了一个仿真实验,对比二者的识别率可以发现,嗍实验的结果要明显优于DTw。H姗虽然在训练时要耗费较多时间,但是识别速度较高,充分反映了洲的优势。关键词:隐马尔科夫模型,语音识别,线性预测分析
硕士学位论文ABSTRACTABSTRACTSpeechrecogonitionisakindoftechnologythatisusingcomputertotransferthevoicesignaltoanassociatedtextorcommandbyidentificationandunderstand.Thespeechrecognitiontechnologytakethepronunciationsignalprocessingastheresearchobject,involvesthelinguistics,thecomputerscience,thesignalprocessing,thephysiology,thepsychologyandSOonmanydomains,isthepatternrecognitionimportantbranch.Thistechnologyhastheextremelybroadapplicationprospect.ButatpresentappliesthemostSuccessfulspeechrecognitionsystemmostlyisbasedonhidesMarkovtobepossiblethehusbandmodelrecognitionsystem,thereforethoroughlyunderstoodandgraspshidesMartobepossiblethehusbandmodeltobeextremelysignificant.Thepapermainresearchspeechrecogn“ionbasicprincipleandthedifferentrecognitionalgorithm,andemphaticallystudyhiddenMarkovmodel(HMM)andbasedonthismodelspeechrecognitionalgorithm.AndhasconstructedoneinthisfoundationbasedonhiddenMarkovthemodel(HMM)speechrecognitionsystem.Thissystemhascompletedthespeechrecognitionmainprocess,containsthepretreatment,thevertexexamination,thecharacteristicparameterextractionandthepatternmatching.Pretreatedmainlyusesthepre-emphasis,thevertexexami—nationusesthedoublethresholdmethod,thecharacteristicparameterextractionhasusedisthelinearpredictionanalysismethod,selectedhasbeenbeautifulyourcepstrumcoefficient(MFCC)totakethemaincharacteristicparameter,usedhiddenMarkovmodel(HMM)completedChinesepronunciation;thetrainingandtherecognition.Theresultindicatedthat,thissystemrecognitionrateachieved90%basicmaysatisfythesystemthedesignrequest.Keywords:HiddenMarkovMode(HMM),speechrecognition,linearPredictionanalysisn
原创性声明本人声明,所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了论文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得中南大学或其他单位的学位或证书而使用过的材料。与我共同工作的同志对本研究所作的贡献均已在论文中作了明确的说明。作者签名:关于学位论文使用授权说明本人了解中南大学有关保留、使用学位论文的规定,即:学校有权保留学位论文,在解除密级的情况下,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以采用复印、缩印或其它手段保存学位论文;学校可根据国家或湖南省有关部门规定送交学位论文。作者签名:二塑牟当上归
硕士学位论文第一章绪论1.1语音识别概述1.1.1语音识别研究的重要意义第一章绪论语音识别是智能计算机系统的重要特征。这一技术的应用将从根本上改变计算机的人机界面,从而对计算机的发展以及推广应用产生深远的影响。随着计算机的小型化,键盘已经成为移动平台的一个很大障碍,想象一下如果手机仅仅只有一个手表那么大,再用键盘进行拨号操作已经是不可能的。语音识别正逐步成为信息技术中人机接口的关键技术,语音识别技术与语音合成技术的结合使人们能够甩掉键盘,通过语音命令进行操作。语音技术的应用己经成为一个具有竞争性的新兴高技术产业。语音识别技术作为声控产业,必将对编辑排版、办公自动化、工业过程和机器操作等的声控技术起到重大的推进作用。语音识别技术在人机交互应用中,也已经占到了越来越大的比例.如基于电话的语音识别技术,使计算机直接为客户提供金融、证券和旅游等方面的信息查询及服务成为可能,进而成为电子商务进展中的重要一环。在电话与通信系统中,智能语音接口正在把电话机从一个单纯的服务工具变成为一个服务的“提供者”和生活“伙伴”;使用电话与通信网络,人们可以通过语音命令方便地从远端的数据库系统中查询与提取有关的信息。因此可以预见,语音技术必将对工业、金融、商业、文化、教育等诸方面产生革命性的影响。这是一项具有巨大应用推广前景的工程。正是由于这一点,一些主要先进国家都把语音识别的研究列为国家级的研究项卧¨。1.1.2语音识别的发展现状语音识别的研究工作大约开始于五十年代,当时AT&TBell实验室实现了第一个可识别十个英文数字的语音识别系统—Alldly系统121。六十年代,计算机的应用推动了语音识别的发展。这时期的重要成果是提出了动态规划①P)和线性预测分析技术(LP),而后者较好地解决了语音信号模型的问题,对语音识别的发展产生了深远影响。七十年代,语音识别领域取得了突破。在理论上,LP技术得到进一步发展,动态时间规整技术∞玎D基本成熟,特别是提出了矢量量化(、rQ)和隐马尔可夫模型(}珊M)理论。在实践上,实现了基于线性预测倒谱和DTW技术的特定人孤立语音识别系统。
硕士学位论文第一章绪论八十年代,语音识别研究进一步走向深入,其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室的Rabiner等科学家的努力,他们把原本艰涩的HMM纯数学模型工程化,从而为更多研究者了解和认识。ANN和HMM模型建立的语音识别系统性能相当。进入九十年代,随着多媒体时代的来临,迫切要求语音识别系统从实验室走向实用。许多发达国家如美国、日本、韩国以及mM,Apple,AT&T,Nrr等著名公司都为语音识别系统的实用化开发投以巨资。我国语音识别研究工作起步于五十年代,但近年来发展很快,研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后,国家863智能计算机专家组为语音识别技术研究专门立项,每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步,在汉语语音识别技术上还有自己的特点与优势,并达到国际先进水平。其中,具有代表性的研究单位是清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。由清华大学电子工程系语音技术与专用芯片设计课题组研发的非特定人汉语数码串连续语音识别系统,识别精度达到了94,8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下,系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串),这是目前国际上最好的识别结果之一,其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%,前三选识别率达99.%,并且可以识别普通话与四川话两种方言,达到了实用要求131。1.2语音识别技术的分类计算机语音识别过程与人对语音识别处理过程基本上是一致的。语音识别系统可以根据对输入语音的限制加以分类。从说话者与识别系统的相关性分:(1)特定人语音识别系统:仅考虑对于专人的话音进行识别,与讲话的语种没有关系,什么语言都可以识别;C2)非特定人语音识别系统;识别的语音与人无关,通常要用大量不同人的语音数据库对识别系统进行学习,识别的语言取决与采用训练语音库;(3)多人的识别系统:通常能识别一组人的语音该系统通常要求对该组人的语音进行学习,通常可以识别三到五个人的语音。从说话的方式分:(1)孤立词语音识别系统:其输入系统要求输入每个词后要停顿;(2)连接词语音识别系统:其输入系统要求对每个词都清楚发音,开始出现一些连2
硕士学位论文第一章绪论音现象:、(3)连续语音识别系统:连续语音输入自然流利的语音,会出现大量的连音和变音。从识别系统的词汇量大小分L:(1)小词汇量语音识别系统,通常包括几十个词;(2)中等词汇量语音识别系统,通常包括几百个词到上千个词。(3)大词汇量语音识别系统,通常包括几千到几万个词。这些不同的限制也决定着语音识别系统难易程度。1.3语音识别的基本方法一般来说,语音识别的方法有三种:基于声道模型和语音知识的方法、模板匹配的方法以及利用人工神经网络的方法Ⅲ。(1)基于语音学和声学的方法该方法起步较早,在语音识别技术提出的开始,就有了这方面的研究,但由于其模型及语音知识过于复杂,现阶段没有达到实用的阶段。通常认为常用语言中有有限个不同的语音基元,而且可以通过其语音信号的频域或时域特性来区分.这样该方法分为两步实现:第一步,分段和标号把语音信号按时间分成离散的段,每段对应一个或几个语音基元的声学特性。然后根据相应声学特性对每个分段给出相近的语音标号第二步,得到词序列根据第一步所得语音标号序列得到一个语音基元网格,从词典得到有效的词序列,也可结合句子的文法和语义同时进行。(2)模板匹配的方法,模板匹配的方法发展比较成熟,目前已达到了实用阶段。在模板匹配方法中,要经过四个步骤:特征提取、模板训练、模板分类、判决。常用的技术有三种:动态时间规整(I)TW)、隐马尔可夫(舢)理论、矢量量化(vQ)技术。1.动态时间规整(DTW)语音信号的端点检测是进行语音识别中的一个基本步骤,它是特征训练和识别的基础。所谓端点检测就是在语音信号中的各种段落(如音素、音节、词素)的始点和终点的位置,从语音信号中排除无声段。在早期,进行端点检测的主要依据是能量、振幅和过零率。但效果往往不明显。60年代日本学者Itakura提出了动态时间规整算法(Dw:DynamicTimeWarping)。算法的思想就是把未知量均匀的升长或缩短,直到与参考模式的长度一致。在这一过程中,未知单词的时间轴要不均匀地扭曲或
硕士学位论文第一章绪论弯折,以使其特征与模型特征对正。2.隐马尔可夫法(H咖)隐马尔可夫法(H姗)是70年代引入语音识别理论的,它的出现使得自然语音识别系统取得了实质性的突破。删方法现已成为语音识别的主流技术,目前大多数大词汇量、连续语音的非特定人语音识别系统都是基于删模型的。l删是对语音信号的时间序列结构建立统计模型,将之看作一个数学上的双重随机过程:一个是用具有有限状态数的Markov链来模拟语音信号统计特性变化的隐含的随机过程,另一个是与Markov链的每一个状态相关联的观测序列的随机过程。前者通过后者表现出来,但前者的具体参数是不可测的。人的言语过程实际上就是一个双重随机过程,语音信号本身是一个可观测的时变序列,是由大脑根据语法知识和言语需要(不可观测的状态)发出的音素的参数流。可见HMM合理地模仿了这一过程,很好地描述了语音信号的整体非平稳性和局部平稳性,是较为理想的一种语音模型01。3.矢量量化(V妨矢量量化(VectorQuantization)是一种重要的信号压缩方法。与舢相比,矢量量化主要适用于小词汇量、孤立词的语音识别中。其过程是:将语音信号波形的k个样点的每一帧,或有k个参数的每一参数帧,构成k维空间中的一个矢量,然后对矢量进行量化。量化时,将k维无限空间划分为M个区域边界,然后将输入矢量与这些边界进行比较,并被量化为“距离”最小的区域边界的中心矢量值。矢量量化器的设计就是从大量信号样本中训练出好的码书,从实际效果出发寻找到好的失真测度定义公式,设计出最佳的矢量量化系统,用最少的搜索和计算失真的运算量,实现最大可能的平均信噪比。核心思想可以这样理解:如果一个码书是为某一特定的信源而优化设计的,那么由这一信息源产生的信号与该码书的平均量化失真就应小于其他信息的信号与该码书的平均量化失真,也就是说编码器本身存在区分能力。在实际的应用过程中,人们还研究了多种降低复杂度的方法,这些方法大致可以分为两类:无记忆的矢量量化和有记忆的矢量量化。无记忆的矢量量化包括树形搜索的矢量量化和多级矢量量化”1。(3)神经网络的方法利用人工神经网络的方法是80年代末期提出的一种新的语音识别方法。人工神经网络(ANN)本质上是一个自适应非线性动力学系统,模拟了人类神经活动的原理,具有自适应性、并行性、鲁棒性、容错性和学习特性,其强的分类能力和输入一输出映射能力在语音识别中都很有吸引力。但由于存在训练、识别时间太长的缺点,目前仍处于实验探索阶段。由于ANN不能很好的描述语音信号的时间动态特性,所以常把ANN与传统识别方法结合,分别利用各自优点来进行语音识别。4