几种改进的MFCC特征提取方法.pdf

发布时间：2022-05-29 发布人：admin 分类：说明书资料大小：0.28M 资料格式：pdf 举报版权申诉

weilixing-1746504-4744300845405993251.pdf-第1页.png

第1页 / 共7页

weilixing-1746504-4744300845405993251.pdf-第2页.png

第2页 / 共7页

weilixing-1746504-4744300845405993251.pdf-第3页.png

第3页 / 共7页

weilixing-1746504-4744300845405993251.pdf-第4页.png

第4页 / 共7页

weilixing-1746504-4744300845405993251.pdf-第5页.png

第5页 / 共7页

weilixing-1746504-4744300845405993251.pdf-第6页.png

第6页 / 共7页

weilixing-1746504-4744300845405993251.pdf-第7页.png

第7页 / 共7页

文本预览

几种改进的MFCC特征提取方法在说话人识别中的应用许鑫’ 苏开娜2 胡起秀3 】(北京工业大学计算机学院，北京，100022) 2(北京工业大学计算机学院，北京，100022) 3(清华大学计算机科学与技术系，北京，100084) 摘要:Mel频率倒谱系数 (MFCC)表征了人类的听觉特征目前国内外提出了一些比较好的MFCC改进算法，可以提高语音特征提取的香棒性本文介绍了一些在语音识别中取得一定效果的Mel倒语提取的改进算法。将这些算法应用于文本无关的说话人识别，并在此基础上提出了四种改进方法在 100人和200人的电话语料库中，分别进行同信道和不同信道的实验，使识别平获得了不同程度的提高尤其在不同信道上的识别效果更为显著口其中频率掩蔽滤波与ExpoLog尺度相结合的方法识别效果最好:在用座机语音建模手机语音测试的实验中，识别率从签准系统的 16.327%上升到 38.776!;在用手机语音建模座机语音测试的实验中，识别率从基准系统的8%上升到40% 可见，所提出的改进方法是非常有效的。关键词:MFCC;说话人识别;特征提取;普棒性 1.引言研究人员发现在人类的听觉系统中存在着掩蔽效应。这种效应是指弱信号在强信号的附近会被掩蔽。同时人的耳蜗相当于一个非线性频率尺度的滤波器，使人耳对低频信号比对高频信号更敏感Dl。因此提出了利用Mel滤波器进行特征提取，它主要是模仿人的耳蜗对声音进行滤波，减小噪声对语音的影响。目前，MFCC有较好的鲁棒性，所以在语音识别和说话人识别中得到了广泛的应用。但是由于噪声和信道的影响，在某些应用场合中仍然存在着不足。近年来，研究人员对此提出了改进Mel倒谱系数的计算方法，得到了一定的成效。本文介绍了国内外提出的针对语音识别的改进算法，将这些算法应用于说话人识别，并在此基础上提出了四种改进方法，使识别率获得了不同程度的提高。第 2部分介绍传统的MFCC参数的提取算法，第 3部分介绍国内外提出的改进的MFCC参数的提取算法，包括频率掩蔽滤波[2l, Mel三角滤波器的能量加权滤波[[3l、半升正弦函数倒谱提升[41 和ExpoLog尺度算法[[51，第4部分采用上面介绍的几种算法以及提出的四种改进方法进行实验分析，第 5部分总结。联系作者:许鑫，E-mail: xuxin@emails.bjutedu.cm苏开娜，E-mail: sukama@bjutedu.m;胡起秀，E-mail: bugx8@sohu.com 万方数据

N 多媒体信号处理 337 2.传统的 MFCC参数的提取 MFCC是着眼于人类的听觉机理而提出的。人耳对于不同频率信号可以引起不同的调节作用。在MFCC参数的提取过程中，Mel只角滤波器就是模仿人耳的这种特性设计的。主要的算法流程如下[61:对于某语音信号x(n) (1)预加重:目的在于对语音的高频部分进行加重，增加高频部分的分辨率。公式〔1) (2)加窗:帧长为N，一般采用的是汉明窗。目的在于进行短时信号的局部化分析， x'二x一低_: k e (0.9,1) 保持在窗边界处的信号可以平滑地衰减。 (3)离散傅里叶变换: X.(k)一艺x(n)。一，2ak/N 公式 (2) 其中，x(n)时输入的语音信号，N是傅里叶变换的点数。 (4)用Q个带通三角滤波器，中心频率从。一采样频率//2间Mel频率分布，中心频率为f(q), q=1,2,...,Q，三角滤波器设计如公式 (3)所示。 H (k)= k一f(q一1) f (q)一f(q一1) f(q+1)一k f(q+1)一f (q) k f(q+1) f(q一1)<-k

338 第一部分第十四届全国多媒休技术学术会议 A -，二ay; 只戈 =对_; = x,-, if殊, > x=- if义1续x,-, 公式 (6) Yn=双Y,一， Y}=式 if式 >x。公式 ((7) Y.二x} if尺 s x, 其中，a为低频掩蔽阐值，刀为高频掩蔽闲值，x，为频率i的原始功率谱，Y为过滤频谱后的输出。 3.2 Mel滤波器组加权分析[[31 Wei-Wen Hung和Hsiao-Chuan Wang[31提出了Mel滤波器组加权分析(WFBA, weighted filter bank analysis) 主要通过提高对数滤波能量中高能量部分的权重及削弱低能量部分的权重，来提高MFCC的区分能力，这样可以使语音对环境的影响不敏感，具有较好的鲁棒 1性。根据公式〔9)的滤波器加权分析因子，来计算公式 (8)的倒谱系数。 Q-, 艺w}q)S(q)cos(rzn(q+0.5)/Q) 0 S n < L q=o 一log[e(q)+1]/flog[e(j)+1] OSq

IV 多媒体信号处理 339 4.实验及结果分析由于上面介绍的算法各有特点和优势，FMF模拟了人的听觉掩蔽效应，WFBA减少了易受噪声影响的谱谷部分，HRSF提高了较鲁棒的倒谱系数中间阶的分量值，EFS加大了识别率相对较高的中频率段的影响范围，考虑到优势互补，因此我们提出将 WFBA与HRSF 相结合、FMF(插补)与EFS相结合、EFS与 HRSF相结合、FMF(插补)与 HRSF相结合的四种方法，来改进MFCC的特征提取过程。我们采用 200 人的语料库，包括四组电话数据 (信噪比约为20dB )，座机集合 a、座机集合 b、手机集合a以及手机集合 b。每个说话人都分别存在于四组数据中。我们使用座机集合a和手机集合a作为训练样本〔训练音长为24 秒)，座机集合b和手机集合b作为测试样本〔测试音长为 IDs)。分别进行同信道的座机集合间、手机集合间及不同信道的座机和手机集合间的测试。所有语音样本采样率均为skHz，采用线性PcM16bit编码。特征参数采用 MFCC系数的 CI一C16的 16阶系数。预加重系数为。.95，窗长为 256 个点，窗移为 128个点，使用 24 个三角滤波器进行 Mel尺度的滤波。我们分别对 100人 (参见表 1) 和 200人 (参见表 2) 集合进行训练，采用 50 人进行测试测试样本是从 200 人语料库中随机抽取 50 人，每个说话人的语音样本均存在于不同规模训练集合中。每个测试均在基于vQ的基准系统上进行如下实验: (1)加入F‘】「(闭值a=0.5、刀=0名); (2)加入FMF(采用线性插补方法，闭值范围a以。入住5]刀以。衣众8〕); (3)加入 WFBA; (4)加入 HRSF; (5)将原Mel尺度修改为EFS; (6)加入 WFBA和 HRSF; (7) 加入FMF(线性插补阂值范围a以0.3几5]夕姚a6瓜81)并修改为EFS; (8)加入 HRSF并修改为 EFS; (9)加入FMF(线性插补阂值范围a。[03，0乃]刀。[0石，0名])和HRsF 表 1 采用上述几种方法的 100人训练集合的识别率 % 同信道一} 不同信道 100人训练 50 人测试基准系统 FMF(插补) dha_dhb 一} sja习b 一} dh卜sjb {} 习a.dhb } 92刀00 1} 97，5，一} 16o27 }} 16.000 FMF(a一0石，夕一0名) } 54刀00 一} 51.633 一} 20.408 一} 36000 } 58.000 93.575 一} 26531 一} 25一000 } 94刀00 一1 95.915 一} 18.367 一} 22.000 } 94000 一1 95，15 一} 15.367 } 96.000 95夕18 32石53 88刀00 } 95.915 22t449 1 20000 96力00 } 95.915 38776 } 440。。 96刀00 } 97959 } 35.776 } 3200。 92.000 } 951918 40.00 0 FMF(插补 )+EFS FMF(插补)十HRS「 W FBA+HR名F W FBA HRSF EFS 22.000 32刀00 EFS山HRSF 24.490 万方数据

340 第一部分第+四届全国多媒体技术学术会议表2 采用上述几种方法的200人训练集合的识别率 200人训练 50人测试基准系统同信道 } dha-dhb } sja-sjb dha-sjb 92.000 97.959 16.327 FMF(a=0.5,刀=0.8) } 80.000 一} } 88.000 } 89796 } 不同信道 sja-dhb 8.OO0 28.000 } FMF(插补) W FBA HRSF EFS 94.000 94.000 } W FBA+ HRSF 88.000 FMF(插补)十EFS } } } } FMF (插补 )+HRSF } ，。。。。 } EFS + HRSF 95.918 } 18.367 } 12.000 95.918 } } 一} 95.918 95.918 20.408 } 38.776 32.653 } 14.000 40.000 28.000 26.000 注:dhs 座机集合。;dhb 座机集合b: sja-手机集合a; sjb,一手机集合b; dha-sjb一用座机集合。进行训练，用座机集合 b进行测试结果分析: (1)在 100人训练50人钡(试的实验中，同信道的识别率有增有减，不同信道的识别率均在增加。所提出的四种改进方法识别效果都比较好，尤其对十不同信道表现很鲁棒.EFS. FMF(插补)与 EFS相结合、EFS与HRSF, FMF(插补)与 HRSF相结合这四种方法整体的识别性能提高较显著。 (2)在200人训练50人测试的实验中，EFS尺度、FMF(插补)与EFS相结合、EFS 与HRSF的识别效果非常好，在保持同信道高识别率的同时，对于不同信道识别率的提高非常显著在 dha-sjb的测试中，FMF(插补)与 EFS相结合的力法使识别率从 16.327% 上升到38.776%;在sja-dbb的测试中，使识别率从8%提高到40%0 (3)通过不同规模训练集的实验，我们发现随着训练集合规模增大，识别率有所下降但是所提出的四种改进方法对于不同信道的贡献是非常明显的。尤其EFS与HRSF相结合的方法和 FMF(插补)与EFS相结合的方法整体识别效果突出，虽然后者的识别效果最佳，前者次之，但是前者相对于基准系统增加的计算量是非常小的。 5.结论本文介绍了几种国内外提出的针对语音识别的MFCC的改进算法，将这些算法应用于说话人识别，并对所提出的 WFBA与 HRSF相结合、FMF(插补)与 EFS相结合、EFS 与HRSF相结合、FMF(插补)与HRSF相结合的四种方法分别进行了实验。实验发现，这四种方法在不同规模训练集的不同信道的测试中，识别率提高很显著。尤其FMF(插补) 与EFS相结合、EFS与HRSF相结合这两种方法对同信道和不同信道具有很好的鲁棒性山于FMF(插补)与EFS相结合的方法更符合人的听觉机理，所以识别效果最佳，但是计算开销稍大于EFS与HRSF相结合的方法。所以根据实际情况，权衡识别速度与准确度，选择适当的方法应用于说话人识别系统。万方数据

>t1 多媒体信号处理 341 通过实验发现，FMF算法只对于不同信道的识别有一定提高，其中a,刀值的设定起着举足轻重的作用，所以今后可以进一步研究不同的a, '6值对说话人识别率的影响虽然EFS算法表现了较好的识别效果，但是相信通过不同频率对说话人识别的相对重要性的研究，来设计和改进更符合说话人特征的Mel尺度函数，将会获得更加鲁棒的MFCC特征参数。参考文献 []j [2j [3] 14] [5j [6j [7] 章熙春等t语音MFCC特征计算的改进方法.数据采集与处理,2005,20(2): 161-165 Weizhong Zhu, Douglas O'Shaughnessy. Incorporating Frequency Masking Filtering in a Standard MFCC Feature Extraction Algorithm. Proc. 7th International Conference on Signal Processing, ICSP 2004, Aug. 31-Sept. 4 2004, Beijing, China: 617--620 Wei-Wen Hung, Hsiao-Chuan Wang. On the Use of Weighted Filter Bank Analysis for the Derivation of Robust MFCCs. Signal Processing Letters, IEEE, 2001, 8(3): 70-73 马志友等.二次特征提取及其在说话人识别中的应用.电路与系统学报，2005,8(4): 130-133 S Bou-Ghazale, S H L Hansen. A Comparative Study of Traditional and Newly Proposed Features for Recognition of Speech Under Stress. IEEE Trans Speech and Audio Processing, 2000, 8(4): 429-442 土让定等.语音倒谱特征的研究一计算机工程，2003, 29(13): 31-33 甄斌等.语音识别和说话人识别中各倒谱分量的相对重要性.北京大学学报 (自然科学版)，2001, 37(3): 371-378 A Comparative Study of Some Improved MFCC Algorithms for Speaker Recognition Xu Xin，一，Su Kai-naz, Hu Qi-xiu3 (College of Computer, Beijing University ofTechnology, 100022, China) 1 ' (College of Computer, Beijing University of Technology, 100022, China) ' (Department of Computer Science and Technology, Tsinghua University, 100084, China) 'Corresponding author: Phn:十86-10-6279-7001(804),E-mail: xuxin@emails.bjut.edu.cn Key words: MFCC, speaker recognition, feature extraction, robust Abstract: MFCC symbolizes the property of human auditory system, and it is the key feature parameter in speaker recognition and speech recognition. The researchers proposed some improved algorithms for MFCC feature extraction, which succeeded in speech recognition in some cases. Those algorithms that we introduce to text-independent speaker recognition are Frequency Masking Filtering (FMF), Weighted Filter Bank Analysis (WFBA), Half Raised-Sine Function (HRSF) and ExpoLog Frequency Scale (EFS). Due to their advantages, we consider combining these algorithms and proposing four combined methods, including WFBA and HRSF, FMF and EFS, EFS and HRFS, FMF and HRFS. Combined WFBA and HRSF could decrease 万方数据

342 第部分第十四届全国多媒体技术学术会议 the influence by noise and emphasize the important middle MFCC terms; combined FMF and EFS could make MFCC more suitable to human auditory mechanism; combined EFS and HRFS could emphasize the more important mid-frequencies and lifter the more useful coefficients; combined FMF and HRFS could mimic a human masking mechanism to get more robust features The speaker recognition system is based on Vector Quantization models. The speech database used in these experiments is telephone speech. These experiments are carried out between the same types or different types of handset. We train 100 people models and 200 people models respectively, and use speech from 50 people to test. With the proposed methods, the experiments reveal high robustness, especially in the different types of handset. In four proposed methods, combined FMF (linear interpolation) and EFS, combined EFS and HRSF, show higher robust than any other in both the same and different types of handset. In the different types of handset tests, combined FMF (linear interpolation) and EFS gets the correct recognition rate 38.776% and 40% respectively compared with the result of 16.327% and 8% in the baseline system Although combined FMF (linear interpolation) and EFS gets the best result, it should require more extra computation than combined EFS and HRSF. By making a tradeoff between recognition speed and correct recognition rate with our needs, we can choose the right method for speaker recognition system. 万方数据

分享到：

赞收藏

资料库

几种改进的MFCC特征提取方法.pdf

相关推荐

开发技术

热门标签

最新资料