logo资料库

视频编码标准的发展:从H.261到H.264.pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
视频编码标准的发展:从 H.261 到 H.264 关键词:视频 ITU-T H.261 H.263 H.264 数字视频技术广泛应用于通信、计算机、广播电视等领域,带来了会议电视、 可视电话及数字电视、媒体存储等一系列应用,促使了许多视频编码标准的产生。 ITU-T 与 ISO/IEC 是制定视频编码标准的两大组织,ITU-T 的标准包括 H.261、 H.263、H.264,主要应用于实时视频通信领域,如会议电视;MPEG 系列标准是 由 ISO/IEC 制定的,主要应用于视频存储(DVD)、广播电视、因特网或无线网上 的流媒体等。两个组织也共同制定了一些标准,H.262 标准等同于 MPEG-2 的视 频编码标准,而最新的 H.264 标准则被纳入 MPEG-4 的第 10 部分。 本文按照 ITU-T 视频编码标准的发展过程,介绍 H.261、H.263 及 H.264。 H.261 视频编码标准 H.261 是 ITU-T 为在综合业务数字网(ISDN)上开展双向声像业务(可视电话、 视频会议)而制定的,速率为 64kb/s 的整数倍。H.261 只对 CIF 和 QCIF 两种图 像格式进行处理,每帧图像分成图像层、宏块组(GOB)层、宏块(MB)层、块(Block) 层来处理。 H.261 是最早的运动图像压缩标准,它详细制定了视频编码的各个部分,包 括运动补偿的帧间预测、DCT 变换、量化、熵编码,以及与固定速率的信道相适 配的速率控制等部分。 H.263 视频编码标准 H.263 是最早用于低码率视频编码的 ITU-T 标准,随后出现的第二版(H.263+) 及 H.263++增加了许多选项,使其具有更广泛的适用性。 H.263 视频压缩标准 H.263 是 ITU-T 为低于 64kb/s 的窄带通信信道制定的视频编码标准。它是 在 H.261 基础上发展起来的,其标准输入图像格式可以是 S-QCIF、QCIF、CIF、 4CIF 或者 16CIF 的彩色 4∶2∶0 亚取样图像。H.263 与 H.261 相比采用了半象素 的运动补偿,并增加了 4 种有效的压缩编码模式。 无限制的运动矢量模式允许运动矢量指向图像以外的区域。当某一运动矢量 所指的参考宏块位于编码图像之外时,就用其边缘的图像象素值来代替。当存在
跨边界的运动时,这种模式能取得很大的编码增益,特别是对小图像而言。另外, 这种模式包括了运动矢量范围的扩展,允许使用更大的运动矢量,这对摄像机运 动特别有利。 基于句法的算术编码模式使用算术编码代替霍夫曼编码,可在信噪比和重建 图像质量相同的情况下降低码率。 先进的预测模式允许一个宏块中 4 个 8×8 亮度块各对应一个运动矢量,从 而提高了预测精度;两个色度块的运动矢量则取这 4 个亮度块运动矢量的平均 值。补偿时,使用重叠的块运动补偿,8×8 亮度块的每个象素的补偿值由 3 个 预测值加权平均得到。使用该模式可以产生显著的编码增益,特别是采用重叠的 块运动补偿,会减少块效应,提高主观质量。 PB-帧模式规定一个 PB-帧包含作为一个单元进行编码的两帧图像。PB-帧模 式可在码率增加不多的情况下,使帧率加倍。 H.263 视频压缩标准版本 2 ITU-T 在 H.263 发布后又修订发布了 H.263 标准的版本 2,非正式地命名为 H.263+标准。它在保证原 H.263 标准核心句法和语义不变的基础上,增加了若干 选项以提高压缩效率或改善某方面的功能。原 H.263 标准限制了其应用的图像输 入格式,仅允许 5 种视频源格式。H.263+标准允许更大范围的图像输入格式,自 定义图像的尺寸,从而拓宽了标准使用的范围,使之可以处理基于视窗的计算机 图像、更高帧频的图像序列及宽屏图像。 为提高压缩效率,H.263+采用先进的帧内编码模式;增强的 PB-帧模式改进 了 H.263 的不足,增强了帧间预测的效果;去块效应滤波器不仅提高了压缩效率, 而且提供重建图像的主观质量。 为适应网络传输,H.263+增加了时间分级、信噪比和空间分级,对在噪声信 道和存在大量包丢失的网络中传送视频信号很有意义;另外,片结构模式、参考 帧选择模式增强了视频传输的抗误码能力。 H.263++视频压缩标准 H263++在 H263+基础上增加了 3 个选项,主要是为了增强码流在恶劣信道上 的抗误码性能,同时为了提高增强编码效率。这 3 个选项为: 选项 U——称为增强型参考帧选择,它能够提供增强的编码效率和信道错误 再生能力(特别是在包丢失的情形下),需要设计多缓冲区用于存贮多参考帧图 像。 选项 V——称为数据分片,它能够提供增强型的抗误码能力(特别是在传输 过程中本地数据被破坏的情况下),通过分离视频码流中 DCT 的系数头和运动矢
量数据,采用可逆编码方式保护运动矢量。 选项 W——在 H263+的码流中增加补充信息,保证增强型的反向兼容性,附 加信息包括:指示采用的定点 IDCT、图像信息和信息类型、任意的二进制数据、 文本、重复的图像头、交替的场指示、稀疏的参考帧识别。 H.264 视频编码标 准 H.264 是由 ISO/IEC 与 ITU-T 组成的联合视频组(JVT)制定的新一代视频压 缩编码标准。事实上,H.264 标准的开展可以追溯到 8 年前。1996 年制定 H.263 标准后,ITU-T 的视频编码专家组(VCEG)开始了两个方面的研究:一个是短期研 究计划,在 H.263 基础上增加选项(之后产生了 H.263+与 H.263++);另一个是长 期研究计划,制定一种新标准以支持低码率的视频通信。长期研究计划产生了 H.26L 标准草案,在压缩效率方面与先期的 ITU-T 视频压缩标准相比,具有明显 的优越性。2001 年,ISO 的 MPEG 组织认识到 H.26L 潜在的优势,随后 ISO 与 ITU 开始组建包括来自 ISO/IEC MPEG 与 ITU-T VCEG 的联合视频组(JVT),JVT 的主 要任务就是将 H.26L 草案发展为一个国际性标准。于是,在 ISO/IEC 中该标准命 名为 AVC(Advanced Video Coding),作为 MPEG-4 标准的第 10 个选项;在 ITU-T 中正式命名为 H.264 标准。H.264 的主要优点如下: 在相同的重建图像质量下,H.264 比 H.263+和 MPEG-4(SP)减小 50%码率。 对信道时延的适应性较强,既可工作于低时延模式以满足实时业务,如会议 电视等;又可工作于无时延限制的场合,如视频存储等。 提高网络适应性,采用“网络友好”的结构和语法,加强对误码和丢包的处 理,提高解码器的差错恢复能力。 在编/解码器中采用复杂度可分级设计,在图像质量和编码处理之间可分级, 以适应不同复杂度的应用。 相对于先期的视频压缩标准,H.264 引入了很多先进的技术,包括 4×4 整 数变换、空域内的帧内预测、1/4 象素精度的运动估计、多参考帧与多种大小块 的帧间预测技术等。新技术带来了较高的压缩比,同时大大提高了算法的复杂度。 4×4 整数变换 以前的标准,如 H.263 或 MPEG-4,都是采用 8x8 的 DCT 变换。H.26L 中建议 的整数变换实际上接近于 4×4 的 DCT 变换,整数的引入降低了算法的复杂度, 也避免了反变换的失配问题,4×4 的块可以减小块效应。而 H.264 的 4×4 整数 变换进一步降低了算法的复杂度,相比 H.26L 中建议的整数变换,对于 9b 输入 残差数据,由以前的 32b 降为现在的 16b 运算,而且整个变换无乘法,只需加法 和一些移位运算。新的变换对编码的性能几乎没有影响,而且实际编码略好一些。 基于空域的帧内预测技术
视频编码是通过去除图像的空间与时间相关性来达到压缩的目的。空间相关 性通过有效的变换来去除,如 DCT 变换、H.264 的整数变换;时间相关性则通过 帧间预测来去除。这里所说的变换去除空间相关性,仅仅局限在所变换的块内, 如 8×8 或者 4×4,并没有块与块之间的处理。H.263+与 MPEG-4 引入了帧内预 测技术,在变换域中根据相临块对当前块的某些系数做预测。H.264 则是在空域 中,利用当前块的相临象素直接对每个系数做预测,更有效地去除相临块之间的 相关性,极大地提高了帧内编码的效率。 H.264 基本部分的帧内预测包括 9 种 4×4 亮度块的预测、4 种 16×16 亮度 块的预测和 4 种色度块的预测。 运动估计 H.264 的运动估计具有 3 个新的特点:1/4 象素精度的运动估计;7 种大小 不同的块进行匹配;前向与后向多参考帧。 H.264 在帧间编码中,一个宏块(16×16)可以被分为 16×8、8×16、8×8 的块,而 8×8 的块被称为子宏块,又可以分为 8×4、4×8、4×4 的块。总体而 言,共有 7 种大小不同的块做运动估计,以找出最匹配的类型。与以往标准的 P 帧、B 帧不同,H.264 采用了前向与后向多个参考帧的预测。半象素精度的运动 估计比整象素运动估计有效地提高了压缩比,而 1/4 象素精度的运动估计可带来 更好的压缩效果。 编码器中运用多种大小不同的块进行运动估计,可节省 15%以上的比特率 (相对于 16×16 的块)。运用 1/4 象素精度的运动估计,可以节省 20%的码率(相 对于整象素预测)。多参考帧预测方面,假设为 5 个参考帧预测,相对于一个参 考帧,可降低 5%~10%的码率。以上百分比都是统计数据,不同视频因其细节特 征与运动情况而有所差异。 熵编码 H.264 标准采用的熵编码有两种:一种是基于内容的自适应变长编码(CAVLC) 与统一的变长编码(UVLC)结合;另一种是基于内容的自适应二进制算术编码 (CABAC)。CAVLC 与 CABAC 根据相临块的情况进行当前块的编码,以达到更好的 编码效率。CABAC 比 CAVLC 压缩效率高,但要复杂一些。 去块效应滤波器 H.264 标准引入了去块效应滤波器,对块的边界进行滤波,滤波强度与块的 编码模式、运动矢量及块的系数有关。去块效应滤波器在提高压缩效率的同时, 改善了图像的主观效果。 其他视频编码标准
除上述 ITU-T 的视频压缩标准外,还有一些标准也比较流行,如 MPEG-4、 AVS、WM9。 H.264 也称为 MPEG-4 AVC,而目前业内所说的 MPEG-4 一般是指 SP(简级)或 ASP(先进的简级),主要针对低码率应用,如因特网上的流媒体、无线网的视频 传输及视频存储等,其核心类似于 H.263。 MPEG-4 SP 和 H.263 有很多相似的地方,如附表所示。然而,这两个标准之 间也有显著的不同,主要表现在:码流结构和头信息、熵编码的部分码表、编码 技术的一些细节。MPEG-4 ASP 较 SP 增加了一些技术,主要有:1/4 象素精度的 运动估计、B 帧、全局运动矢量(GMV),因而压缩效率得以提高。 AVS 是由我国自主制定的音/视频编码技术标准,主要面向高清晰度电视、 高密度光存储媒体等应用。AVS 标准以当前国际上最先进的 MPEG-4 AVC/H.264 框架为基础,强调自主知识产权,同时充分考虑了实现的复杂度。相对于 H.264, AVS 的主要特点有:(1)8×8 的整数变换与 64 级量化;(2)亮度和色度帧内预测 都是以 8×8 块为单位,亮度块采用 5 种预测模式,色度块采用 4 种预测模式; (3)采用 16×16、16×8、8×16 和 8×8 4 种块模式进行运动补偿;(4)在 1/4 象素运动估计方面,采用不同的四抽头滤波器进行半象素插值和 1/4 象素插值; (5)P 帧可以利用最多 2 帧的前向参考帧,而 B 帧采用前后各一个参考帧。 Window Meida 9(WM9)是微软公司开发的新一代数字媒体技术。一些测试表 明,WM9 的视频压缩效率比 MPEG-2、MPEG-4 SP 及 H.263 高很多,而与 H.264 的 压缩效率相当。 结束语 目前,H.261 与 H.263 在视频通信中广泛应用,成熟的产品已经很多。H.263 与 H.261 相比,增加了若干选项,提供了更灵活的编码方式,压缩效率大大提高,
更适应网络传输。H.264 标准的推出,是视频编码标准的一次重要进步,它与现 有的 MPEG-2、MPEG-4 SP 及 H.263 相比,具有明显的优越性,特别是在编码效率 上的提高,使之能用于许多新的领域。尽管 H.264 的算法复杂度是现有编码压缩 标准的 4 倍以上,随着集成电路技术的快速发展,H.264 的应用将成为现实。(本 文作者郭晓强先生,北京邮电大学博士生;门爱东先生,电信学院多媒体通信中 心教授、博士生导师 摘自《世界广播电视》)
分享到:
收藏