利用ADPCM进行网络环境下实时多点语音通信.pdf

发布时间：2022-06-10 发布人：admin 分类：说明书资料大小：0.22M 资料格式：pdf 举报版权申诉

qq_40344524-10375666-4744302542999916722.pdf-第1页.png

第1页 / 共4页

qq_40344524-10375666-4744302542999916722.pdf-第2页.png

第2页 / 共4页

qq_40344524-10375666-4744302542999916722.pdf-第3页.png

第3页 / 共4页

qq_40344524-10375666-4744302542999916722.pdf-第4页.png

第4页 / 共4页

文本预览

利用 !"#$% 进行网络环境下实时多点语音通信李文华许刚 ’华北电力大学信息工程系!北京 >"!!"&$ 摘要目前网络语音通信应用逐步增多!但效果还不甚理想" 该文阐述了应用音频处理 *+( 函数&*,+-. 编码调制技术和 G,+ 协议进行网络环境下实时多点语音通信的方法 !并给出其实现过程 " 实现机制为发送端利用低层音频服务的回调机制对音频数据块进行动态循环处理 !防止了由于系统在写满语音输入缓冲区后 !新&旧缓冲区交换时有一定的间隙而产生的输入数据泄漏" 在传输之前采用 *,+-. 编码!有效地利用了现有带宽!传输后经缓冲解码再进行播放!尽可能地恢复原始语音信号 " 由于采用 *,+-. 编解码技术 !实现了在各种网络环境下进行实时多点语音通信 !效果较为理想" 关键词 *,+-. 编码语音通信 G,+ 传输文章编号 >""!JE%%>J’!""#$%&J">!KJ"# 文献标识码 * 中图分类号 H+%L% &’()*+,-’ %.)+,*/0,1+ 2/’’34 $0--.1,3(+,01 56,17 !"#8% ,1 80-/.+’9 :’+;09< =, >’14.( ?. @(17 ’,51072M582 <6 (86<7M023<8 N8O3855738O!)<72P -P380 N95Q273Q +"!!"&$ AB6+9(3+( *2 175;582!2P5 01193Q023<8; <6 2P5 ;155QP Q?! 利用 ’()@A-B! 进行网络环境下实时多点语音通信=!C% 发送端采用 *,+-. 编码技术!压缩数据流到原来的 > D E!极大地利于网络传输" 根据网络状况开设三个以上的缓冲区!利用低层音频服务的回调机制对音频数据块进行动态循环处理 !防止了由于系统在写满语音输入缓冲区后 !新 &旧缓冲区交换时有一定的间隙而产生的输入数据泄漏" 接收端相应地改变了接到音频数据经缓冲后马上调用 F045A:2’7325 函数将数据传递给输出设备的传统模式=%C!而是采用数据缓冲后解码机制!即接到两个缓冲区的数据后将这两个缓冲区的音频数据进行 *,+-. 解码 !再传递给输出设备!以后每接到一个缓冲区的数据后马上将该音频数据进行解码再传递给输出设备" 由于输出设备在接收音频数据后并不是缓冲后立即播放 !而是把数据进行解码 !因此 !如果数据缓冲区的大小设置得比较合理!在网络正常的情况下输出数据缓冲队列上会一直有音频数据在等待解码播放 !这样就避免了在传统方式下!由于网络延时接收端等待音频数据而产生的话音停顿 ! 加大了传输的数据量 " 在传输方式上采用了 G,+ 协议 =#C!在网络条件较好的情况下 !比 H-+ 协议 =%!IC更适合传输语音信号" 该文最后给出了缓冲区块数&缓冲区路数&同时连接路数 &语音效果和连接类型的比较实验数据 !并对此进行了详细的分析说明!结果表明!采用该文给出的原理机制!进行网络环境下实时多点语音通信有明显改善" > ’(),A’@!""" 环境下的音频处理机制和过程该文介绍的 ’(),A’@!""" 环境下的语音通信!需要经历作者简介(李文华’>LKIJ$!男!硕士!研究方向为语音信号处理与分析% 许刚!副教授% 计算机工程与应用 !""#$%& !"#

采集 !编码 !传输 !解码和播放五个阶段 "这五个阶段在实时语音通信中每一阶段都是十分重要的# ’$’ ()*+,-. /01 音频服务简介为了满足不同应用的需求 "()*+,-. /01 $ /234)56+)7 06863,96: 1)4%;&<设计了高层 &低层两种不同层次的音频服务 # 一般来说" 高层音频服务能够满足大部分的多媒体应用需求 " 它提供与设备无关的应用程序接口 "包括媒体控制接口 $/=>% 函数和高层波形音频函数"通过存取特定格式的媒体文件来对音频数据进行操作# 但是这种基于文件格式的控制不适合对音频数据进行动态实时处理# 而低层音频服务"直接控制与设备驱动程序打交道的音频数据"它提供了对音频驱动程序的直接操作和对音频数据的逐位的精确控制 " 是所有音频处理的基础 "包括低层波形音频 &/>0> 和辅助音频函数 "它为多媒体计算机音频硬件提供了与设备无关的低级接口" 具有灵活性高 & 实时性强的特点# 要想实现对声音的实时处理"就必须摆脱文件格式的控制"直接对音频数据进行操作"因此"通过低层音频服务来实现网络通讯比较符合实际需要# ’$! 低层音频采集的过程首先介绍一下 ()*+,-. 低层波形音频数据块结构 (?@AB 内存( $&%初始化音频数据块结构各成员变量 "主要是将每个缓冲区指针赋给对应数据块结构中的缓冲区指针变量 390747(调用 -786>*I:697:6C67+6: $%-786>*?++N2OO6: $% 将音频数据块赋给输入设备驱动程序( $_%调用 -786>*J47:4$%函数开始录音# 录音开始后 "每当有缓冲区填满采样数据后 "就发消息给回调对象"由相应的窗口过程或回调函数对数据块中的采样数据进行处理"到 ?0I=/ 编码阶段# ’$% ?0I=/ 编码 ?0I=/ 是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术;’"_<"==>KK 为此制定了 X$ _!& 推荐标准"使用该标准的编码器的数据率可降低到 ’&‘a L .# X$_!& ?0I=/ 标准是一个代码转换系统 " 它使用 ?0I=/ 转换技术 " 实现 ’!Y‘a L . ? 律或 ! 律 I=/ 速率和 ’&‘a L . 速率之间的相互转换 # X$_!& ?0I=/ 的简化框图如图 ’ 和图 ! 所示 # C0D"其声明如下’ 4E96 .4:2F4G HIJKD 390747( L 0(MD0 +-N2OO6:H6*P4Q( L 0(MD0 +-NE46D6F,:+6+( L L 指向锁定的数据缓冲区的指针 L 数据缓冲区的大小 L 录音时指明缓冲区中的数据量 0(MD0 +-R.6:( L 0(MD0 +-S37P( L 0(MD0 +-H,,9.( L L 用户数据 L 提供缓冲区信息的标志 L 循环播放的次数 .4:2F4 -786Q+:T47P!39U6V4( L 0(MD0 :6.6:86+( L L 保留 L 保留 W (?@AC0D( 声音的采集和播放都是在操作这个音频数据块结构 "实际上主要用到的就是第一个成员变量 390747"所以只要在分配缓冲区的同时相应分配 (?@AC0D 数据块结构 " 然后将缓冲区的指针赋给对应的数据块结构的成员变量 390747"这样当一个缓冲区填满后 "也就是一个音频数据块填满了 "通过消息机制就可以在消息函数中进行处理"处理完后又可通过消息函数把缓冲区再送给音频设备输入驱动程序" 继续进行采集并处理 " 当你一次性分配多个缓冲区和数据块结构并赋给音频设备输入驱动程序后 "至于把哪个缓冲区填满 "然后再把哪个空缓冲区赋给设备输入驱动程序 "不需人为干预 "完全由 ()*+,-. 控制 "这就是一种用动态循环缓冲区实现话音的实时采集 &编码的简单而巧妙的办法# 实现步骤’ $’%用 -786>*X64U25068. $% 查看当前系统波形音频输入设备"用 -786M24X64U25068.$%查看当前系统波形音频输出设备( $!%按 Y"""CZ"’&N)4"单声道的格式设置 (?@ASMD/?B KA[ 结构的成员变量( $%%用 -786>*M96*$%和 -786M24M96*$%分别调用 (?@AT SMD/?KT\RAD] 参数查看波形输入设备是否支持所设定的格式( $#% 再次用 -786>*M96* $% 和 -786M24M96* $% 分别调用 =?HHN?=1T(>U0M( 参数打开波形输入设备( $^%分别给音频数据块和音频数据缓冲区分配 &锁定全局 !"# !""#$%& 计算机工程与应用图 ’ ?0I=/ 编码器在图 ’ 编码器中 "? 律或 ! 律 I=/ 输入信号转换成均匀的 I=/# 差分信号等于均匀的 I=/ 输入信号与预测信号之差# )自适应量化器*用 ! 位二进制数表示差分信号 "但只用其中的 ’^ 个数$即 ’^ 个量级%来表示差分信号"这是为防止出现全)"*信号+ )逆自适应量化器*从这 ! 位相同的代码中产生量化差分信号 + 预测信号和这个量化差分信号相加产生重构信号+ )自适应预测器*根据重构信号和量化差分信号产生输入信号的预测信号 "这样就构成了一个负反馈回路+ 图 ! ?0I=/ 解码器 X$_!& ?0I=/ 编码器的输入信号是 I=/ 代码"采样率是 Y‘CZ"每个代码用 ’& 位表示 "因此它的数据率为 ’!Y‘a L .+其输出代码是)自适应量化器*的输出"该输出是用 ! 位表示的差分信号 "它的采样率仍然是 Y‘CZ"它的数据率为 ’&‘a L ."这样就获得了 Yb’ 的数据压缩+ 在图 ! 所示的译码器中 "译码器的部分结构与编码器负反馈回路部分相同+ 此外"还包含有均匀 I=/ 到 ? 律或 ! 律 I=/ 的转换部分 " 以及同步编码调整 $.E*FQ:,*,2. F,+)*P 7+c2.456*4%部分+ 设置同步$串行%编码调整的目的是为防止在同步串行编码期间出现的累积信号失真 + 在编码器中"差分信号的计算是’ !$"%#$%$"%&$’$"% $’%

! ! ! ! 式 !’"中 !"!#"是输入的均匀 ()* 信号#!$!#"是预测信号 $ 量化器是一个 # 级非均匀自适应量化器 #在量化前 #%!#"转化成以 ! 为底的对数表示#并且用自适应定标因子 &!#"度量$ 量化器输出的幅度值’(!#"’由表 ’ 给出$ 表 ’ 量化器输入输出特性归一化量化器输入范围 4(!#"4 归一化量化器输出 YWV!4%)!#"’-&!#" T!$"##]‘" !,‘#,!$"#" YWV!4%)!#"’-&!#" ’ " !$-6 "$a’ 量化后差分信号 %)!#"由逆量化器计算 #根据自适应定标因子 &!#"度量 #从表 ’ 中得到输出 #再从对数域转换到原域 $ 量化器定标因子有 ! 种模式适应#快速方式产生的差分信号波动大#慢速方式产生的差分信号波动小$ 适应速度由这两种方式的因子共同控制$ 自适应预测器的主要功能是从量化后差分信号 %)!#"计算预测信号 !$!#"$ 预测器采用两种结构 #一个 & 级的模拟零点部分和一个 ! 级的模拟极点部分$ 这种结构可以适应广泛的输入信号$ 预测信号计算% ! 过程#由于篇幅有限这里就不多介绍了$ 由于网络传输过程中的延时和延时长短的不确定性#若接收端采用接到音频数据即马上进行 <=()* 解码的机制 #在解码完一个缓冲区的数据与接到下一缓冲区的数据之间将有时间间隙#从而产生明显的话音停顿#而人耳对这样的停顿是最为敏感的$ 因此#该文在第一次接收到一个缓冲区的音频数据后并不马上进行解码 #而是在接到两个缓冲区的数据后将这两个缓冲区的音频数据同时解码#以后每接到一个缓冲区的数据后马上将该数据解码$ 这样# 由于输出设备在接收音频数据后并不是立即解码播放 #而只是把数据加载在输出数据缓冲队列上 #因此 #如果数据缓冲区的大小设置得比较合理#在网络正常的情况下输出数据缓冲队列上会一直有音频数据在等待解码播放#上述的话音停顿则会得到明显改善$ 解码的数据传给下一个阶段$ ’$6 接收端的播放过程经解码后获取进行播放的波形音频格式信息 #接下来进行语音的播放#过程和语音采集相似$ 主要是% !’"通过调用 >?@ABCDEADFCG=A@;!"(>?@ABCDBHAI!"函数 !$!#"* !,+ !#-’"!. !#-+"/!$0 !#" + * ’ 其中% & !$0 !#"* !1+ !#-’"%)!#-+" + * ’ !!" 打开波形输出设备$ !!"调用 >?@ABCD(JAH?JAKA?LAJ!"函数传递音频数据块的方法#请求设备驱动程序完成相应准备工作$ !%"调用 >?@ABCDMJNDA 函数将数据传递给输出设备$ %)*%!#"/$!#" 重建信号定义% !.!#-+"*!$!#-+"/%)!#-+" 预测系数用一个简单的渐进算法% 对于 ! 级预测器% ,’+!’,!,-",’!#-’"/!%&!,-"!23.4!#"/!23.4!#-’"0 ,!+!’,!,1",!!#-’"/!,12!23.4!#"0!23.4!#-!"0, !%" 5.,’!#,’"0!23.4!#"0!23.4!#-’"03 !#" 其中% 4!#"*%)!#"/!$0 !#" 5!,’"+ #,’ # ,’ 4,’ 4"! ,’ !!23!,’ " 4,’ 45! 对于 & 级预测器% 1+!#"*!’,!,-"1+!#-’"/!,1!23.%)!#"0!23.%)!#-+"0 ++’#!#’#& 初始值设置为% %!""+!6!""+!7!""+" %)!#" ,’#,! #8" 表示渐进系数 !6" 表示移动平均系数 1+ %!#" 表示差分信号 %)!#" 表示量化后差分信号 $!#" 表示量化误差 -7’&89 : ; 的录音信号作为输入信号经 <=()* 编码转为 ’&89 : ; 的信号后发送到传输端口 #然后 #对该数据块进行必要的准备后重新发送给输入设备# 以准备接受后续的采样数据 $ 这样 #音频数据块在消息的控制下被循环使用 #使得实时处理过程可以持续下去$ ’$# 接收端 <=()* 解码 <=()* 解码器的工作原理和编码器类似 # 就是编码的逆 ! 多点双向网络通信机制 !$’ 网络通信机制目前网络通信有很多不同方式#通常应用较多的主要包括调制解调器拨号上网 (

缓冲区又可参加调度! 减少了等待数据时间和缓冲区的数目 " 由于播放器的缓冲区也可实现缓存!因此不必再将数据进行缓存!接收方收到数据后将数据直接送到解码器解码 " 但在解码器中如果数据不够解码显示!则需等待数据的到来" 通过该方法从而实现了实时语音数据的传输并播放" 与其它网络程序相比!其初始化稍有不同" 初始化得到一个 ’()*+, 套接字需进行如下设置# -’()*./’0’()*+,$ 0123456! 7 7 地址家族 ’89:2;<=0>! 7 7 套接字的类型 "! 7 7 协议类型 $?@/’0@=86898?2 3418%4A??! 7 7 协议内容 "! 7 7 保留 /’021?0<2>A?63@8346292?501B/’021?0<2>A?63@83462 ;2?501%& 7 7 数据报标志然后 !通过 ’+,C()*(D, 函数设置套接字的属性 !如允许地址重用’缓冲区是接收还是发送等( 通过 /’03(),E 函数设置套接字生存时间!调用 FGHI 对套接字进行绑定) 注意在初始化时目的地址一定是上面所提到的多播地址" 但在接收方还需调用 /’0J(GH?+KL 来加入多播组!其设置如下# -4+MC()*./’0J(GH?+KL *-C()*! 7 7 ’()*+, 套接字必须为多播标志进行创建否则调用失败 *@’89:0;;=%IC,;+C,0IIN! 7 7 多播地址 7 多播地址长度 4A??! 7 CGO+(L*C,;+C,0IIN%! 7 7 呼叫者数据 7 被叫者数据 7 ’()*+, 套接字的 P(’ 设置 7 ’()*+, 组的 P(’ 4A??! 7 4A??! 7 4A??! 7 7 允许接收和发送 J?2F86Q%& 7 发送方和接收方的多播地址一定要相同!它们才是一个组的 ) 初始化完成后 ! 在发送方响应发送的消息中调用 /’0’+HI6( 函数!接收方的接收调用 /’0=+)R1N(S 函数 ) 接收方的接收可以是阻塞和非阻塞的 ! 笔者所采用的是阻塞方式!所以在接收数据中设置了等待超时) 为了实现返回!调用函数# /’0/KG,1(N>TE,GDE+5U+H,C*E! 7 7 指向等待事件的句柄 -5U9H,! 7 7 等待事件的个数 LKEC+! 7 7 等待一个事件的同步 7 等待超时时间 V2H6GS+(T,! 7 表 ! 不同网络下的测试结果数据缓冲数据缓冲同时连语音效果网络类型区块数区大小*F% 接路数 # # # % % % ! ! ! % % % W&"" W&"" W&"" Y"" Y"" Y"" Y"" Y"" Y"" &"" &"" &"" X X % X X % X X % X X % W""> 局域网 W"> 局域网可以多点双向正常传输!无顿音! 话音清晰质量好!延时较大可以多点双向正常传输!无顿音! 话音清晰质量好!延时较大可以多点双向正常传输!无顿音! 拨号上网话音清晰质量好!延时较大可以多点双向正常传输!无顿音! 话音清晰!延时小可以多点双向正常传输!无顿音! 话音清晰!延时小可以多点双向正常传输!稍有顿音! 拨号上网话音清晰!延时小话音不连续 W""> 局域网 W"> 局域网话音不连续话音不连续 W""> 局域网 W"> 局域网拨号上网话音连续!音质差!延时最小话音连续!音质差!延时最小话音连续!音质差!延时最小 W""> 局域网 W"> 局域网拨号上网语音信号只需要 W&* 的带宽!即使用 X&* 的调制解调器上网可以正常同时传输 % 路 !在局域网上路数可以达到更多 !这十分有利于推广应用" 即使在临界状态下也能很好的传输语音 !这充分说明了缓冲区的重要性" 在网络阻塞时!网络流量下降到 W"* 左右时短时间内也能正常传输!只要根据自己的网络状况和资源大小选择好缓冲区大小和块数就能很好地传输语音" 该程序设计在 U9\\ U&$" /34;8/’!""" 下通过! 其详细源代码可以联系笔者" # 结论该文是多媒体通信与网络传输项目的重要内容 ! 在基于 /34;8/’ !""" 的系统上采用 0;@9> 可以很好地完成网络环境下实时多点语音通信" 从上述实验可以看出 !采样频率固定的情况下!关键是选择好缓冲区大小和块数使语音的传输效果达到最好" 由于采用 0;@9> 编码!用 X&*[DC 调制解调器传输效果也较理想!适合广大网络用户使用!应用范围广泛" 另外还有待改进的地方将有文章另行介绍" *收稿日期#!""# 年 X 月% LKEC+%../’02/03625U5462" 7 接收到的数据放到缓冲区!经解码器解码后播放) 每个点 7 超时参考文献上的设置大致相同!实现多点语音通信) % 实验结果和分析该实验是在 W""> 局域网 +W"> 局域网和 X&:>8;5> 拨号上网等多种网络上进行测试 ! 基于 /GHI(MC!""" 环境下完成的" 五台机器建立连接*五台以上机器连接原理与五台机器连接相同 %!语音采样用 YZW&*[D 7 C 位单声道方式 !经过反复试验得到表 ! 所示实验数据" 从表 ! 数据可以看出!语音传输的质量是由数据缓冲区的大小决定的!缓冲区越大音质越好!但延时也会增大" 而缓冲区块数最少要在 % 块以上才能正常工作!网络条件差时可以增加缓冲区块数 ! 但同时也会消耗更多的系统内存 " 由于采用了 0;@9> 编码!数据流减少到未压缩时的 W 7 Y!每路 YZW&*[ 7 C 的 !"# !""#$%& 计算机工程与应用 W$36A]6 =+)(SS+HIK,G(H < ^!&$#" !%! !!# !KHI W& *[ 7 C 0IKD,GR+ ;GLL+N+H,GKE @TEC+ 9(I+ >(ITEK,G(H *0;@9>%$W__" !$+ 通科技研究中心$网络硬件及配置标准教程‘>a$人民邮电出版社 ! !""!]"_ %$张静 !许刚$基于 /GHI(MC_Y 环境的多点双向数字语音通信‘Jb$计算机工程!!""%&!_*&% #$/ =G)-KNI ’,+R+HC$69@ 7 3@ 3EETC,NK,+I!U(ETS+ W!6-+ @N(,()(EC$W__^ X$;(TVEKC 5 9(S+N$用 69@ 7 3@ 进行网际互连 ‘>b$ 电子工业出版社 ! W___]"& &$马华东$多媒体计算机技术原理‘>b$清华大学出版社!W___ ^$李煜晖!朱山风!段上为等译$多媒体数字压缩原理与标准‘>b$电子工业出版社!!"""]"Y Y$易君$UGCTKE 9\\$456 网络编程‘>b$中国铁道出版社!!""%]"&

分享到：

赞收藏

资料库

利用ADPCM进行网络环境下实时多点语音通信.pdf

相关推荐

网络技术

热门标签

最新资料