南开大学硕士学位论文基于DSP的说话人识别系统姓名:李春杰申请学位级别:硕士专业:信号与信息处理指导教师:张立民20070501
摘要摘要声纹识别技术,即说话人识别技术,以其独特的方便性、经济性和准确性等优点受到广泛瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式之一,有着广阔的市场应用前景。本文介绍了基于DSP的说话人识别系统。在硬件方面,以TI公司的数字信号处理器为核心,其良好的性能为说话人识别任务的实时实现提供了保证。系统通过麦克对语音信号进行采集,经过TLC2272进行放大,经由AD50C进行信号的A/D转换,将采集到的模拟信号转换成数字信号。再经过缓冲串口McBSP输入到DSP。DSP采集到语音信号,首先要多次训练产生识别模板,模板的数据存入外部存储空间。建立模板之后,便可以进行说话人语音信号采集,将采集到的信号与存储空间的模板匹配,从而实现说话人识别。同时,本文详细介绍了语音信号处理部分的知识,包括语音信号的采集、预处理、采用LPCC进行特征参数的提取,以及使用G删高斯混合模型进行语音信号的模板建立和匹配,以及阈值的计算。提出了本系统的硬件总体设计方案,分析了部分功能模块电路,并完成了系统硬件设计和调试。还提出了系统软件的结构,论述了部分功能模块软件的实现方案,并完成了系统部分软件的编写。关键词:DSP说话人识别LPCCG姗高斯混合模型
AbstractInthefieldofbiologyrecognition,thespeakerrecognitionhasgotalotoffocusforitsconvenience,economyandaccuracy,anditalreadyhasbceomeanimportantandwidespreadmethodforsecurityvalidationinOordailylife.Sincespeakerrecognitionhasaprosperousdevelopmenttrend,ithasaverywideapplicationmarket.ThisarticleintroducesaspeakerrecognitionsystembasedonDSEThissystem峨sTMS320VC5402whichisproductedbyTexasInstrumentasitsplatformandtheupstandingperformanceoftheDSPprovidestheguaranteefortherealtimerealizationofthesystem.Thesystemcollectsthevoicesignalusingthemicrophone,andtransmitsthesignaltotheAD50fordi百talprocessing,thentheanalogsignalCanbeconvertedtOthedigitalsignalwhichcanbefBrtherprocessedintheDSEThedigitalsignalisthentransmittedtotheDSPfromtheportMcBSEAftertheDSPreceivedthesignal,firstitwillequipthesignaltobethetemplet,andthisphaseiscalledthetrainingphase.Afterthat,theDSPCanrecognizethespeaker.Itwillcomparethereceivedsignalwiththetempletandfinallyrealizethespeakerrecognition.Meanwhile,torealizethefunctionofspeakerrecognition’thereexistssomearithmetic.Thisarticlealsointroducestheknowledgeofvoicesignalprocessing.includingthecollectionofvoicesignal,preprocessing,thedistillingofthecharacteristicparametersusingLPCCarithmeticandtheGMMarithmeticusedfortempletestablishmentandcomparabilityandthecalculationofthepre-value.Keywords:DSPspeakerrecognitionLPCCGMMH
南开大学学位论文版权使用授权书本人完全了解南开大学关于收集、保存、使用学位论文的规定,同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版本;学校有权保存学位论文的E11届U本和电子版,并采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前提下,学校可以适当复制论文的部分或全部内容用于学术活动。学位论文作者签名:瓷瓷奄Ⅻ]年j一月卅日经指导教师同意,本学位论文属于保密,在年解密后适用本授权书。指导教师签名;学位论文作者签名:解密时间:年月日各密级的最长保密年限及书写格式规定如下:◇网鄙_b牛0最农b牛,二叫少卡b牛≯||秘密★10年(最长lO年≯可少子;10年);■一≯o一?。一—==。_‘__,?机密★20年(最长20年,叫少子20年)“
南开大学学位论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:舞寿套、加’7年J,月珂日
第一章绪论第一章绪论第一节课题的提出及意义人类生活在一个信息高度交互的社会里,判定人的身份是一个十分重要的问题。随着社会的不断发展,传统的身份鉴别方法(如钥匙、证件、口令等等)由于本身存在的具体问题,即无法区分真正的拥有者和取得身份标志物的冒充者,已经不能满足社会的需要。基于生物特征的身份鉴别技术为我们提供了一种更加方便和可靠的方法,它已经引起了国内外学术界和企业界的极大关注。近年来,在生物识别技术领域中,声纹识别技术,即说话人识别技术,以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。1.1.1说话人识别综述说话人识别(SpeakerRecognition,SR)也称做声纹识别(VoiceprintRecognition,VPR),该技术是以话音对说话人进行区分,从而进行身份鉴别与认证的技术。说话人识别着眼于包含在语音信号中的个人特征,提取说话人的这些个人信息,以达到识别说话人的目的。说话人识别有着深刻的技术背景,人类语言的产生是人体语言中枢与发音器官之间的一个复杂的生理物理过程。人在讲话时使用的发声器官——舌、牙齿、喉头、肺、鼻腔,在尺寸和形态方面每个人的差异都很大。所以任何两个人的声纹图谱都有差异。每个人的语音声学特征既有相对稳定性,又有变异性,不是绝对的、一成不变的。这种变异可以来自生理、病理、心理、模拟、伪装,也与环境干扰有关。尽管如此,由于每个人的发音器官都不尽相同,因此在一般情况下,人们可以区别不同的人的声音或判断是否是同一个人的声音。说话人识别的基本原理就是通过分析人的发声和听觉,为每个人构造一个独一无二的数学模型。然后再由处理器对模型的实际输入和语音进行精确匹配,根据匹配结果辨识出说话人。说话人识别分成两个方面,即说话人辨认(SpeakerIdentification)和说话人确认(SpeakerVerification)。前者是鉴别输入的1
第一章绪论声音究竟是否预先录好的哪个说话人的声音,是“多选一”问题;而后者用以确认某段语音是否是指定的某个人所说的,是“一对一判别”的问题n1。本文研究前者,即说话人辨认方面的问题。1.1.2说话人识别技术的发展及市场前景说话人识别的研究始于20世纪30年代。早期的工作主要集中在人耳听辨实验和探讨听音识别的可能性方面。随着研究手段和工具的改进,研究工作逐渐脱离了单纯的人耳听辨。Bell实验室的L.G.Kesta目视观察语图谱进行识别,提出了“声纹”的概念。之后,电子技术和计算机技术的发展,使得通过及其自动识别人的声音成为可能。Bell实验室的S.Pruzansky提出了基于模板匹配和概率统计方差分析的声纹识别方法,引起信号处理领域的许多学者的注意,形成了声纹识别研究的一个高潮。期间的工作主要集中在各种识别参数的提取、选择和实验上,并将线性预测分析等方法应用于声纹识别。20世纪70年代末至今,说话人识别的研究重点转向对各种声学参数的线性或非线性处理以及新的模式匹配上,如动态时间调整、主成分分析、隐马尔可夫模型、神经网络和多特征组合等技术。如今,声纹识别技术已经逐渐走向实际应用。AT&T应用说话人识别技术研制出了智能卡,已经用于自动提款机。欧洲电信联盟在电信与金融结合领域应用说话人识别技术,完成了CAVE(CallerVerificationinBankingandTelecommunication)计划,并启动了PICASSO(PioneeringCallAuthenticationforSecureServiceOperation)计划,在电信网上完成了说话人识别。同时,Motorola和Visa等公司成立了V-commerce联盟,希望实现电子交易的自助化,其中通过声音确定人的身份是此项目的重要组成部分。其他的一些商用系统还包括:ITT公司的SpeakerKey、Keyware公司的VoiceGuardian、T-NETIX公司的SpeakEZ等。国内开展说话人识别研究的机构由北京大学、中科院声学所、中科院自动化所、清华大学、北京交通大学等,并先后得到了国家自然科学基金重大和重点项目等基金的支持,并取得了一定的研究成果。说话人识别技术有着广阔的市场应用前景。通过说话人识别技术,可以实现利用语音信息进行身份鉴别,例如缉拿电话信道罪犯,法庭中根据电话录音信息做身份确认,电话语音跟踪,为用户提供防盗门开启功能等。在互联网应2
第一章绪论用及通信领域,说话人识别技术可以应用于诸如声音拨号、电话银行、电话购物、数据库访问、信息服务、语音e-reali、安全控制、计算机远程登陆等领域。在呼叫中心应用上,说话人识别技术同样可以提供更加个性化的人机交互界面。当顾客以电话方式对呼叫中心进行请求时,系统能够根据话音判断出来者身份,从而提供更加个性化,更加贴心的服务。第二节系统总体方案选择本系统以TI的TMs320vc5402一100为核心。利用前端电路对语音进行预处理,产生的波形再经过A/D转换器产生特征参量的数字信号,再经过缓冲串口McBSP输入到DSP。DSP采集到语音信号,首先要多次训练产生识别模板,模板的数据存入外部存储空间。建立模板之后,便可以进行说话人识别了。DSP一旦接收到语音信号,便会调用模板进行比较匹配,只要相识度达到一定要求就会作出相应的识别动作。所采用的TMS320VC5402以及TLC320AD50C需要单独的1.8V和3.3V电源供电,所以加入电源转换芯片TPS767D318组成系统的电源。系统的整体原理框图如图1.1所示。图1.1系统整体设计原理图第三节本论文的主要工作及内容安排本论文介绍了一种基于DSP的说话人识别系统,其主要工作如下:3