论文研究-G.723.1编解码器在TMS320C50上的优化实现.pdf

发布时间：2022-05-29 发布人：admin 分类：说明书资料大小：0.19M 资料格式：pdf 举报版权申诉

weixin_39840588-11410171-4744302543436725879.pdf-第1页.png

第1页 / 共3页

weixin_39840588-11410171-4744302543436725879.pdf-第2页.png

第2页 / 共3页

weixin_39840588-11410171-4744302543436725879.pdf-第3页.png

第3页 / 共3页

文本预览

第２７卷第４期２０１０年４月　计算机应用研究ＡｐｐｌｉｃａｔｉｏｎＲｅｓｅａｒｃｈｏｆＣｏｍｐｕｔｅｒｓＶｏｌ．２７Ｎｏ．４Ａｐｒ．２０１０ G．723．1 编解码器在 TMS320C50 上的优化实现朱　荣，胡瑞敏，常　军，王中元（武汉大学国家多媒体软件工程技术研究中心，武汉４３００７２）摘　要：数字信号处理器在语音编解码中得到广泛应用。在简要介绍ＴＭＳ３２０Ｃ５０定点ＤＳＰ芯片和ＩＴＵ唱ＴＧ．７２３．１语音编解码算法后，详细讨论了Ｇ．７２３．１在ＴＭＳ３２０Ｃ５０上的实现及其技术要点，主要是内存安排、算法和代码优化、数据精度等。设计的编解码器通过了ＩＴＵ唱ＴＧ．７２３．１标准测试数据测试，占用内存资源较少，并具备较高的编解码速度。关键词：定点ＤＳＰ；语音编解码；Ｇ．７２３．１；优化中图分类号：ＴＰ３９１　　　文献标志码：Ａ　　　文章编号：１００１唱３６９５（２０１０）０４唱１４００唱０３ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．１００１唱３６９５．２０１０．０４．０５３ＩｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＩＴＵ唱ＴＧ．７２３．１ｓｐｅｅｃｈｃｏｄｅｃｏｎＴＭＳ３２０Ｃ５０ＺＨＵＲｏｎｇ，ＨＵＲｕｉ唱ｍｉｎ，ＣＨＡＮＧＪｕｎ，ＷＡＮＧＺｈｏｎｇ唱ｙｕａｎ（National Multimedia Software Engineering Research Center， Wuhan University， Wuhan ４３００７２， China） Abstract：Ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒｉｓｗｉｄｅｌｙｕｓｅｄｉｎｓｐｅｅｃｈｃｏｄｉｎｇａｎｄｄｅｃｏｄｉｎｇｐｒｏｃｅｓｓ．ＴｈｉｓｐａｐｅｒａｆｔｅｒｉｎｔｒｏｄｕｃｅｄＴＭＳ３２０Ｃ５０ｆｉｘｅｄｐｏｉｎｔＤＳＰｃｈｉｐａｎｄｔｈｅａｌｇｏｒｉｔｈｍｏｆＩＴＵ唱ＴＧ．７２３．１ｂｒｉｅｆｌｙ，ａｄｄｒｅｓｓｅｄｔｈｅｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆＧ．７２３．１ｃｏ唱ｄｅｃｏｎＴＭＳ３２０Ｃ５０．Ｓｏｍｅｋｅｙｄｅｓｉｇｎｔｅｃｈｎｉｑｕｅｓ，ｓｕｃｈａｓｍｅｍｏｒｙａｌｌｏｃａｔｉｏｎ，ａｌｇｏｒｉｔｈｍｏｐｔｉｍｉｚａｔｉｏｎａｎｄｃａｌｃｕｌａｔｉｏｎｐｒｅｃｉｓｉｏｎｐｒｏｃｅｓｓｉｎｇｗｅｒｅｐｒｅｓｅｎｔｅｄｉｎｄｅｔａｉｌ．ＴｈｅｒｅａｌｉｚｅｄｃｏｄｅｃｎｏｔｏｎｌｙｃａｎｐａｓｓａｌｌｔｈｅＩＴＵ唱ＴＧ．７２３．１ｓｔａｎｄａｒｄｔｅｓｔｓｅｑｕｅｎｃｅｓ，ｂｕｔａｌｓｏｐｅｒｆｏｒｍｓｈｉｇｈｒｕｎｎｉｎｇｅｆｆｉｃｉｅｎｃｙｗｉｔｈｒｅａｓｏｎａｂｌｅｍｅｍｏｒｙｍａｎａｇｅｍｅｎｔ． Key words：ｆｉｘｅｄｐｏｉｎｔＤＳＰ；ｓｐｅｅｃｈｃｏｄｅｃ；Ｇ．７２３．１；ｏｐｔｉｍｉｚａｔｉｏｎ［１］准 0　引言以尽量减少实际语音与合成语音之间经听觉加权后的差分信ＴＭＳ３２０Ｃ５０定点芯片上实现的技术要点。 1　存储结构优化算法的执行效率不仅受处理器速度影响，也与对存储器的合理利用密切相关。算法向ＤＳＰ移植之前，需要对数据结构作调整，使其符合目标芯片的存储结构特点。此外，在一般ＤＳＰ硬件平台上，存储体最少可分为片外存储器、片内高速缓冲存储器和寄存器三类，它们的存取效率呈逐级加快趋势，存储器优化的原则是尽可能使最近、最常用的数据缓冲在最快的存储体中。 1畅1　算法的数据结构设计由ＩＴＵ唱Ｔ的第１５小组（ＳＧ１５）１９９５年提出的Ｇ．７２３．１标是极低速率多媒体通信标准系列Ｈ．３２４中的有关语音编码的一个标准。Ｇ．７２３．１编码器采用了线性预测分析合成的技术，对８Ｋｂｐｓ取样的１６ｂｉｔ精度的ＰＣＭ数字音频进行处理，号的能量为准则来进行编码的。在Ｇ．７２３．１标准中提供了两种可选速率，即５．２７Ｋｂｐｓ和６．３Ｋｂｐｓ。与同样速率的其他语音编码器相比，这两种编码器都具有较高的语音质量，较低的编码延时（３０ｍｓ～４０ｍｓ）。其中５．２７Ｋｂｐｓ编码器只搜索一个激励码本，所以速度很快，所需的存储空间也较小。是美国ＴＩ公司开发的一种１６位定点数字信号处理器，因其具有较高的性价比，在数字信号处理领域得到广泛应用。笔者在ＴＭＳ３２０Ｃ５０定点ＤＳＰ芯片上实现了ＩＴＵ唱ＴＧ．７２３．１双速率语音编解码器（ＣＯＤＥＣ）的全部功能，包括语音活动检测（ＶＡＤ）和舒适噪声插入（ＣＮＧ）［３］。该ＣＯＤＥＣ已全部通过ＩＴＵ唱ＴＧ．７２３．１标准测试数据测试，全部程序代码为９ＫＢ，分配的数据内存为１１ＫＢ（含９ＫＢ的常数表）。其中５．２７Ｋｂｐｓ为１８ＭＩＰＳ，６．３Ｋｂｐｓ为１６ＭＩＰＳ（ＴＭＳ３２０Ｃ５０ＭＩＰＳ为２８．６／２０）。本文着重讨论了ＩＴＵ唱ＴＧ．７２３．１编解码算法在　　收稿日期：２００９唱０７唱０３；修回日期：２００９唱０９唱０２　　　　作者简介：朱荣（１９６４唱），男，湖北荆门人，副教授，博士研究生，主要研究方向为多媒体信息处理（ｚｈｕｒｏｎｇ＠ｗｈｕ．ｄｅｕ．ｃｎ）；胡瑞敏（１９６５唱），男，湖北武汉人，教授，博导，主要研究方向为多媒体网络通信、多媒体信息处理和编码；常军（１９７２唱），男，陕西汉中人，讲师，硕士；王中元（１９７２唱），男，湖北英山人，讲师，博士，主要研究方向为视频编解码和多媒体通信．Ｇ．７２３．１是基于码本激励线性预测模型（ＣＥＬＰ）的语音参［４］，利用了语音信号的短时相关性，因而在算法中要保留几处时延信号，即输入语音信号半帧时延、共振峰听觉加权滤波信号最大基音时延、谐波成形滤波信号最大基音时延、激励信号最大基音时延。笔者在分配内存时，将信号的当前缓冲区和它们各自的时延缓冲区安排在一起，这样的处理方式可以获得多方面增益。首先，ＬＰ系数计算、开环基音搜索、谐波成形滤波不用重新构造工作缓冲区，因为时延信号和当前信号已经连续存放在ＴＭＳ３２０Ｃ５０［２］数编码方案

朱　荣，等：Ｇ．７２３．１编解码器在ＴＭＳ３２０Ｃ５０上的优化实现 ·１０４１· 　　　第４期一起，可以同时直接访问两者。其次，共振峰听觉加权滤波可以直接在输入信号缓冲区和加权信号缓冲区进行，省掉了加权滤波器ＦＩＲ和ＩＩＲ状态更新的时空开销。同时，重构基音激励信号可以由时延激励信号移动得到，不需要作基音周期判断。更进一步，由于ＦＩＲ和ＩＩＲ级联而成的组合ＬＰ滤波器前一环节的ＩＩＲ和后一环节的ＦＩＲ具有相同的滤波器状态，利用这个道理可以减少滤波器状态缓冲区数和状态更新次数。编码器中，合成滤波器同加权滤波器的ＦＩＲ共用同一状态缓存，加权滤波器的ＩＩＲ状态在谐波成形滤波器缓冲区中；解码器中，合成滤波器同紧随其后的共振峰后置滤波器的ＦＩＲ共享合成信号缓冲区。当然，这种设计的前提是，滤波器状态缓存和输入（或输出）信号缓存物理上安排在一块内存空间。 1畅2　数据在 DSP 中的组织ＴＭＳ３２０Ｃ５０ＤＳＰ各有６４ＫＢ的数据区和程序区，其中９ＫＢ片内单工ＲＡＭ（ＳＡＲＡＭ），１０５６双工ＲＡＭ（Ｂ０、Ｂ１、Ｂ２）。ＳＡＲＡＭ可以同时配给数据区和程序区；Ｂ０可以配给数据区也可以配给程序区，但不能同时满足；Ｂ１、Ｂ２是专门给数据区的。由于在ＤＳＰ中没有操作系统和编译系统的支持，内存分配由程序员掌握，设计一种好的内存分配方案不仅直接关系到程序的效率，而且影响到代码的调试和维护。为了达到节省资源、提高效率、方便设计的目的，笔者采取内存分配模块化的原则，将全局变量和局部变量分开存储，局部变量空间可以互相覆盖、共享分配，下面给出具体设计要点。从逻辑上将分配的内存划分为五个层次，即常用算术运算宏工作区、全局状态变量空间、编解码器通用缓冲区、局部过程空间和常用辅助函数区。其中全局状态空间保存的是编解码器等的状态变量，在整个程序运行期间都不能被覆盖；宏和辅助函数工作区是很小的一部分直接寻址内存，但访问频繁，因而作为全局变量一样对待；通用缓冲区是供局部过程交换数据的一块空间，不能被局部过程覆盖，但编解码器彼此之间可以互相共享；内存管理中最灵活的部分是局部过程变量空间，这类似于Ｃ语言中的函数局部变量，不同过程间可以互相覆盖。这种分层处理方法简化了内存分配的复杂性，从而使内存管理变得有条不紊，便于代码的维护。从物理上看，如何将２ＫＢ数据缓冲区安排在ＳＡＲＡＭ、Ｂ０、Ｂ１块中使程序的效率发挥得最好，是内存分配中面临的又一问题。这个问题要结合指令编码一起考虑，ＭＡＣ、ＢＬＤＤ指令是ＴＩ提供的高效数据运算、数据移动指令，在循环模式下单周期执行，它们要求第一个操作数在程序段，第二个操作数在数据段，并且如果两操作数同在ＳＡＲＡＭ速度又会下降很多。所以，为了充分利用ＭＡＣ指令（这种运算在算法中比例很大），间接寻址内存的分配就要互相兼顾。笔者的做法是，将ＳＡＲＡＭ配成数据段和程序段共享，Ｂ０一般只配给数据段，只在ＭＡＣ或ＢＬＤＤ的第一个操作数在它里面时才通过ＣＮＦ开关暂时配给程序段，运算完后再恢复过来。直接寻址内存全部加起来不超过１２８字，所以可将它们分配在Ｂ１块的同一页中，这样做的好处是，访问时不需要切换段基址。整个系统的数据存储空间为１１ＫＢ，其中常数表占９ＫＢ，另外２ＫＢ为上述直接和间接寻址内存的总和，程序代码为９ＫＢ。Ｃ５０有１０ＫＢ片内存储器，完全可以将２ＫＢ数据缓冲区和常数表的大部分安排在片内，９ＫＢ代码和余下的常数表安排在片外存储器。 2　算法改进算法在ＤＳＰ上实现时，针对目标处理器的体系结构，笔者对原始算法进行了多方面改造，目的是提高算法的执行效率。下面给出改进增益显著的几个计算环节的实现方案。１）开环基音搜索关未优化算法的语音编解码算法是搜索最大自相关值求开环基音周期。在优化算法中，笔者使用分裂基ＦＦＴ计算自相［５］，同时将一个语音帧中的两次开环基音周期合并在一起计算。这样可以只用三次傅里叶变换计算四个实序列的循环卷积，比常规的使用两次傅里叶变换计算两个实序列循环卷积的算法进一步减少了计算量（每四次傅里叶变换计算就减少一次），使得优化的基音估计算法比未优化的基音估计算法计算时间减少了一半。２）目标信号计算和滤波器状态更新按照Ｇ．７２３．１标准协议，从加权、谐波成形滤波后的语音信号中减去组合滤波器的零输入响应就得到目标信号，将 W （z）．P（z）变形为＾（z）．W（z）．P（z）（１）其中：第一个 A ＾（z）即为逆合成滤波器，其输出为残差信号，这说明目标信号也可以通过另一条途径得到，即将残差信号通过合成、加权、谐波成形组合滤波器。这样做的好处是缓存更新变得简单。第一种情况的缓存更新方式是将重构激励信号通过组合滤波器；而第二种是将残差信号和激励信号的差值通过组合滤波器，设重构激励为 cc（n） pv（n）＋g u（n）＝g ＾＾（２）与残差信号差值为 r（n）－u（n），不难证明其通过组合滤＾（z）．１ A A 波器的输出为 cz（n） py（n）－g ew（n）＝x（n）－g ＾＾（３）因此，可以将更新内存原本需要的四个滤波器操作减少到两个。３）基音搜索定义向量 X［L］，Y［N］，由 X 按照周期 L 重构 Y 可用下式（４）构造向量 Y′［N ＋L］且 Y［i］＝X［i ｍｏｄ L］（０≤ i≤N －１） Y′［N ＋L］＝［X｜Y］（５）那么公式 Y′［L ＋i］＝Y′［i］（０≤i≤N －１）（６）显然应该等价于式（４）。根据这个原理，由时延激励信号重构当前激励可以用式（６）代替式（４），而且由于时延信号和当前

计算机应用研究　 ·２０４１· 信号缓冲区已经被安排在一起，式（５）步骤可省。另外，基音基音激励，只要返回主过程即可，无须在主过程中再次重构一次。搜索中最后重构得到的当前激励即为搜索到的该子帧最终４）高码率码本搜索因为每一种可能的脉冲组合的脉冲幅度相同，所以在计算插入脉冲的响应时，可以预先计算所有可能位置的响应，在以后的计算中只须根据脉冲符号执行加减运算即可。而且，根据［６］，可以采用“先将互相关信号幅度值较大的位置选出来，然后仅在这些位置处抽取” 的次最优方法简化计算。优化后搜索速度提高了一半。脉冲序列的抽取原理以上四种优化策略测试效果如表１所示。表１　算法优化对效率的影响第２７卷Ｃ５０没有提供功能齐全的数据比较指令，一般比较都要借助ＡＣＣ，这样会覆盖ＡＣＣ的内容，有没有别的办法呢？笔者在实践中摸索了几种方法：比较等与不等的情况，直接用并行指令ＣＰＬ；比较大于和等于（或小于）可用ＢＩＴ测试变量的符号位；一般的非负数比较，将一个操作数置于ＡＲＣＲ中，另一操作数置于ＡＲｘ中，用ＣＭＰＲ指令。充分利用好辅助寄存器ＡＲｘ（ｘ：０～７）。辅助寄存器不仅作为循环计数器使用，用来实现循环体内变量的递增或递减计算，更多的用法是做间接寻址的指针。嵌套循环时内层指针一般在其内层循环体前初始化，其实这样并不好。本文处理是，所有指针一律在最外层循环体前初始化，然后只在其相应的内层循环体后用ＭＡＲ或ＡＤＲＫ（或ＳＢＲＫ）修改指针，从而精简了指令条数。在设计和调试编解码器过程中，以上论述的几个方面都对效率有不同程度的影响，而每一点都是按照最有利于算法效率的原则来设计的。根据几次优化的先后顺序，列出它们对效率的大致贡献（以６．３Ｋｂｐｓ码率为例），测试结果如表２所示。表２　不同优化方面对效率的贡献优化的方面内存安排溢出处理数据结构算法改进效率提高／％４．８７．３６．２２１．５合计３９．８ 4　结束语用ＴＭＳ３２０Ｃ５０定点芯片实现ＩＴＵ唱ＴＧ．７２３．１算法，是使用代价比较适中的ＤＳＰ芯片实现复杂语音编解码算法的一个尝试。实践表明，对于算法复杂度没有超过ＩＴＵ唱ＴＧ．７２３．１的语音编码器可以用ＴＭＳ３２０Ｃ５ｘ一类芯片实时实现，但对于Ｇ．７２８这样复杂的算法最好用更高级的芯片来实现，如ＴＭＳ３２０Ｃ５４。目前，笔者已经在ＴＭＳ３２０Ｃ５０定点芯片上实现了ＩＴＵ唱ＴＧ．７２３．１的全部功能，并通过了ＩＴＵ唱ＴＧ．７２３．１的全部测试数据。对资源的利用也较好，算法所占的程序存储器空间为９ＫＢ，数据存储器空间为１１ＫＢ（其中２ＫＢ为算法缓冲区空间，９ＫＢ为常数表数据），大部分资源都被节省下来。相对于ＴＭＳ３２０Ｃ５０的运算能力来说（ＭＩＰＳ为２８．６／２０），算法效率还是比较高，其中５．２７Ｋｂｐｓ码率为１８ＭＩＰＳ，６．３Ｋｂｐｓ码率为１６ＭＩＰＳ。参考文献：［１］ＩＴＵ唱ＴＲｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７２３．１，Ｄｕａｌｒａｔｅｓｐｅｅｃｈｃｏｄｅｒｆｏｒｍｕｌｔｉ唱ｍｅｄｉａｃｏｍｍｕｎｉｃａｔｉｏｎｓｔｒａｎｓｍｉｔｔｉｎｇａｔ５．３ａｎｄ６．３Ｋｂｐｓ［Ｓ］．１９９６．［２］ＴＭＳ３２０Ｃ５ｘｕｓｅｒ’ｓｇｕｉｄｅ［Ｋ］．［Ｓ．ｌ．］：ＴｅｘａｓＩｎｓｔｒｕｍｅｎｔｓ，１９９３．ＩＴＵ唱ＴｒｅｃｏｍｍｅｎｄａｔｉｏｎＧ．７２３．１ａｎｎｅｘＡ，Ｓｉｌｅｎｃｅｃｏｍｐｒｅｓｓｉｏｎ［３］ｓｃｈｅｍｅ［Ｓ］．１９９６．［４］姚天任．数字语音处理［Ｍ］．武汉：华中科技大学出版社，２００３．［５］布莱赫特ＲＥ．数字信号处理的快速算法［Ｍ］．肖先赐，等译．［６］ＡＴＡＬＢＳ．Ｐｒｅｄｉｃｔｉｖｅｃｏｄｉｎｇｏｆｓｐｅｅｃｈａｔｌｏｗｂｉｔｒａｔｅｓ［Ｊ］．IEEE 北京：科学出版社，１９９２． Trans on Communication，１９８２，30（４）：６００唱６１４．模块名开环基音预估组合滤波器基音搜索高码率码本搜索１０３１原时间／ｓ优化后时间／ｓ提高／％．３．２０３．０．０５０３．８７．４２．８４．０．７５．０２．０４．５９４５６０２１４４ 3　代码优化 3畅1　定点数溢出处理算法中的定点数基本以１６位和３２位表示，数据溢出时有发生，出现溢出时一般取数据表示范围的最大值（正溢出）或最小值（负溢出）。如果按照常规的判断方法会极大地增加程序的运算量。在实际中笔者采用了以下几种处理技巧，实践表明代码量和运算量都下降了很多。前提条件是，Ｃ５０具备自动处理３２位加减、绝对值、取相反数运算的溢出功能，由溢出模式开关ＯＶＭ控制，在程序中设置ＯＶＭ，一旦发生溢出芯片自动将ＡＣＣ内容设成０Ｘ７ＦＦＦＦＦＦＦＨ或０Ｘ８０００００００Ｈ。３２位数左移用３２位加法实现，如左移 N 位相当于将原数增加（２N －１）倍，这样，移位溢出处理由加法完成。１６位数加法也用３２位加法实现，即将加法放在ＡＣＣ高半部作为３２位处理，只不过结果依然取ＡＣＣ高１６位罢了。１６位数左移采用先移位再控制溢出的方式，不用边移位边判断溢出，即在移位指令后增加四条指令ＬＡＣＣ　＃７ＦＦＦＨＣＲＬＴＬＡＣＣ　＃８０００ＨＣＲＧＴ 3畅2　其他代码优化策略Ｃ５０ＤＳＰ芯片具有很强的计算能力，它提供了一些专用、高效的指令，使用得当可以有效地提高程序运行效率。Ｃ５０指令按四级流水线方式执行，保持流水线的畅通就意味着速度的提高。提高指令并行度的方法有：转移或条件转移时使用后缀为Ｄ的指令就不会重新刷新流水线；用条件执行指令ＸＣ代替转移指令能避免流水线的中断；通过合适安排指令顺序来避免流水线冲突，尽量不使用ＮＯＰ。

分享到：

赞收藏

资料库

论文研究-G.723.1编解码器在TMS320C50上的优化实现.pdf

相关推荐

开发技术

热门标签

最新资料