汕头大学
课程论文
题
目
音频信号的识别——乐器识别
工学院
院(系) 通信、电子信息工程 专业
学生名单:曹锦,黄琪雅,彭远珍,周彦华,黄颖诗,谢接长,
陈育德,鲁恒发,列林华,吴志良,洪子扬,何淑贞,
谢婷婷,李力云,张景良,吴霞
指导教师
陈力
指导教师工作单位
汕头大学
起讫日期 2013 年 10 月至 1 月
摘要:在音乐欣赏中,人们能够通过音乐分辨出演奏乐器,在音
乐欣赏中,人们能够通过音乐分辨出演奏乐器,其原因主要是因
为不同的乐器具有不同的音色,在人们头脑里建立了音色和乐器
之间的某种对应关系。但是通过计算机来识别音乐的演奏乐器研
究甚少。报告首先介绍了目前国内外语音识别系统的现状、发展
及研究方向,并对语音识别系统的原理、并行化的实现做了详细
分析,在此基础上进行语音识别系统的设计,利用 MATLAB 较好的
信号处理功能以及对声音文件的读写操作,对计算机辨别乐器音
色进行了研究。根据对不同乐器音色的分析,提出了通过倒谱鉴
别乐器音色的方法。最后在实验中,通过不同乐器演奏的音乐进
行分类和识别,结果表明了利用频谱进行乐器音色识别是有效的。
关键字:音色、乐器、识别
Abstract:
A
musician
can
appreciate
small
differences from small musical instruments in sound.The main
reason is that different instruments is possessed of its tone
color,different tone colors are corresponding to different
musical instruments. At present,there is little literature
on how to distinguish musical instruments by computer. First
introduces the current status of speech recognition system
at home and abroad, development and research, and the
principle
of
speech
recognition
systems,
parallel
implementation of a detailed explanation to do in this speech
recognition system.MATLAB soft has many good characters for
researchers doing their works,especially,it can be easily
used
for
signal
processing
and
sound
file
writing/reading,so some works are done on distinguish
musical instruments by computer in this paper.Based on the
analyses of musical instrument’s tone color,the approach
instrument have been done,and its results shown that this
method is effectiveness.
Keyword: tone-color,musical instrument,distin
目 录
1.绪论………………………………………………………………………1
1.1 课题的背景与意义………………………………………………………………………1
1.2 国内外研究概况………………………………………………………………………1
2.终期项目进度说明 ………………………………………………………2
3. 项目具体内容说明(程序及结果)……………………………………3
3.1 音频信号简介……………………………………………………………………4
3.2 音频文件的格式 ……………………………………………………………… ………4
3.3 图像预处理…………………………………………………………………………4
3.4 对音频信号进行频谱质心处理………………………………………………………4
4. 程序、结果和分析………………………………………………………5
5. 总结…………………………………………………………………9
参考文献……………………………………………………………………9
一、绪论
1. 1 课题的背景与意义
通过语音传递倍息是人类最重要、最有效、最常用和最方便的交换信息的形式。因此,语
音信号是人们构成思想疏通和感情交流的最主要的途径。现在,人类已开始进入了信息化
时代,用现代手段研究语音信号,使人们能更加有效地产生、传输、存储、获取和应用语
音信息,这对于促进社会的发展具有十分重要的意义。
随着计算机越来越向便携化方向发展,随着计算环境的日趋复杂化,人们越来越迫切要求
摆脱键盘的束缚而代之以语音输人这样便于使用的、自然的、人性化的输人方式。作为高
科鼓应用领域的研究热点,语音信号采集与分析从理论的研究到产品的开发已经走过了几
十个春秋并且取得了长足的进步。它正在直接与办公、交通、金融、公安、商业、旅游等
行业的语音咨询与管理.工业生产部门的语声控制,电话、电信系统的自动拨号、辅助控
制与查询以及医疗卫生和福利事业的生活支援系统等各种实际应用领域相接轨,并且有望
成为下一代操作系统和应用程序的用户界面。我们今天进行这一领域的研究与开拓就是要
让语音信号处理技术走人人们的日常生活当中,并不断朝更高目标而努力。
语音信号采集与分析之所以能够那样长期地、深深地吸引广大科学工作者去不断地对其进
行研究和探讨,除了它的实用性之外,另一个重要原因是,它始终与当时信息科学中最活
跃的前沿学科保持密切的联系.并且一起发展。语音信号采集与分析是以语音语言学和数
字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、
通信与信息科学以及模式识别和人工智能等学科都有着非常密切的关系。对语音信号采集
与分析的研究一直是数字信号处理技术发展的重要推动力量。因为许多处理的新方法的提
出,首先是在语音信号处理中获得成功,然后再推广到其他领域。
1. 2 国内外研究现状
语音信号的采集与分析作为一个重要的研究领域,已经有很长的研究历史。但是它的快速
发展可以说是从 1940 年前后 Dudley 的声码器(vocoder)和 potter 等人的可见语音
Visible Speech)开始的。
1952 年贝尔(Bell)实验室的 Davis 等人首次研制成功能识别十个英语数字的 实验装置。1956
年 Olson 和 Belar 等人采用 8 个带通滤波器组提取频谱参数作为语音的特征,研制成功一台
简单的语音打字机。
20 世纪 60 年代初由于 Faut 和 Steven 的努力,奠定了语音生成理论的基础,在此基础上语
音合成的研究得到了扎实的进展。20 世纪 60 年代中期形成的一系列数字信号处理方法和
技术,如数字滤波器、快速博里叶变换(FFT)等成为语音信号数字处理的理论和技术基础。
在方法上,随着电子计算机的发展,以往的以硬件为中心的研究逐渐转化为以软件为主的
处理研究。
1
到了 1971 年,以美国 ARPA (American Research Projects Agency) 为主导的“语音理解系
统”的研究计划也开始起步。这个研究计划不仅在美国园内,而且对世界各国都产生了很
大的影响,它促进了连续语音识别研究的兴起。历时五年的庞大的 ARPA 研究计划,虽然在
语音理解、语言统计模型等方面的研究积累了一些经验,取得了许多成果,但没能达到巨
大投资应得的成果,在 1976 年停了下来,进入了深刻的反省阶段。20 世纪 70 年代初由板
仓(Itakura)提出的动态时间规整(DTW)技术,使语音识别研究在匹配算法方面开辟了新思路;
20 世纪 70 年代中期线性预测技术(LPC)被用于语音信号处理,此后隐马尔可夫模型法
(HNMM)也获得初步成功,该技术后来在语音信号处理的多个方面获得巨大成功;20 世纪
70 年代未,Linda、Buzo、Gray 和 Markel 等人首次解决了矢量量化(VQ)码书生成的方法,
并首先将矢量量化技术用于语音编码获得成功。
20 世纪 80 年代,由于矢量量化、隐马尔可夫模型和人工神经网络(ANN)等相继被应用于语
音信号处理,并经过不断改进与完善,使得语音信号处理技术产生了突破性的进展。
进入 20 世纪 90 年代以来,语音信号采集与分析在实用化方面取得了许多实质性的研究进
展。其中,语音识别逐渐由实验室走向实用化。一方面,对声学语音学统计模型的研究逐
渐深入,鲁棒的语音识别、基于语音段的建模方法及隐马尔可夫模型与人工种经网络的结
合成为研究的热点。另一方面,为了语音识别实用化的需要,讲者自适应、听觉模型、快
速搜索识别算法以及进一步的语言模型的研究等课题倍受关注。
二、终期项目进度说明
我们小组的课题研究是语音识别,通过一系列编程最终实现区别不同乐器的音色。下图一
为我们小组的大概系统框图。从乐器音色识别过程来看,音色识别可分为四部分:乐器声
音采集、乐器声音预处理、乐器音色特征提取和乐器音色分类识别。在中期部分中主要完
成了乐器声音采集和乐器声音预处理,但是最后中期项目结果发现相同 6 个音阶不容乐器
的频谱图基本一样,导致不能直接使用频谱图作为乐器的判别依据,因此在终期项目中,
主要利用对采集音频进行频谱质心的分析来判别乐器类型。
其整个过程示意图如下所示:
2
三、项目具体内容说明(及程序)
1. 音频信号简介
通常,音频信号用一种模拟的连续波形表示,具有频率、幅度两个基本参数,人耳能感知的
声音频率大约在 20~20000Hz 之间,在这种频率范围里感知的声音幅度大约在 0~120dB
之间。人耳对不同频率的声音敏感程度是不一样的,中频段(3kHz~5kHz)最敏感,幅度
很低的信号都能被人耳听到。低频区和高频区较不敏感,能被人耳听到的信号幅度比中
频段要搞得多。
2. 音频文件的格式
在本个项目中我们是基于 MATLAB 环境下进行分析,而 matlab 的音频格式只能录入 wav
格式音频文件。
3. 在中期报告已完成乐器声音的采集,发现对采集的乐器的频谱图可知,单从频谱图不能
提取特征值来进行分析,所以再对音频信号进行频谱质心处理。
处理过程的流程图如下所示:
音频信号录入
带通滤波
频谱图
频谱质心分析并
画图
在带通滤波器中使用到的凯瑟窗和质心的计算中海明窗为“正余弦”窗口
频谱质心
不同乐器发出同一个音阶的音,在频谱上它们具有相同的基波分量,相似的频
3
谱,不同的是各个信号的谐波分量不一样。所以可以对频谱的频谱的质心进行特征
值分析,可以得到不同乐器的在同一个音阶上的区别。
频谱质心描述 1:
4