ITU-R BT.1788 建议书
1
ITU-R BT.1788 建议书
对多媒体应用中视频质量的主观评估方法
(ITU-R 102/6 号研究课题)
范围
数字广播系统允许提供多媒体和数据广播应用,包括视频、音频、静态图像、文本和图表。本建议书
规定评估多媒体应用视频质量的非交互式主观评估方法。
(2007 年)
国际电联无线电通信全会,
考虑到
a)
许多国家正在引入数字广播系统;
利用数字广播系统,已经引入或计划引入包括视频、音频、静态图像、文本、图表等的多媒体和数
b)
据广播服务;
多媒体服务将涉及广播基础设施,其特点是可能使用固定或移动接收机、固定和可变的帧速率、不
c)
同的图像格式、先进的视频编解码、丢包等;
d)
e)
f)
g)
h)
有必要规定性能要求,并验证为各项带有性能要求的服务而考虑的技术解决方案的适宜性;
这种验证将主要涉及在受控条件下对视频质量的主观评估;
在 ITU-R BT.500 建议书中规定的主观评估方法可以用于多媒体应用;
除了在 ITU-R BT.500 建议书中规定的那些主观评估方法外,还可使用其它的主观评估方法;
采用标准方法在不同实验室间实现信息交换是十分重要的;
建议
测试的一般方法,即在附件 1 中所述的图像质量评估的评定尺度和观测条件,应用于实验室实验,
1
并且只要可能,可用于多媒体应用中的运营评估;
2
3
在所有的测试报告中都应对测试配置、测试材料、观测者和方法做全面描述;
为了促进不同实验室之间的信息交换,应依据附件 2 中详述的统计方法对收集到的数据进行处理。
2
ITU-R BT.1788 建议书
注 1 — 适于多媒体应用中视频质量主观评估的视频材料库,需由无线电通信第 6 研究组做进一步完善。
1
引言
附 件 1
评估方法描述
许多国家已着手部署数字广播系统,它将允许提供包括视频、音频、静态图像、文本和图表等在内的
多媒体和数据广播应用。
需要标准的主观评估方法来规定性能要求,并验证为各项应用而考虑的技术解决方案的适宜性。主观
方法是必要的,原因是它们提供了测量法,允许业界更直接地预测最终用户的反应。
广播系统需要交付明显不同于当前在用的多媒体应用:信息通过固定与/或移动接收机访问;帧速率可
以是固定的,或者是可变的;可能的图像尺寸变化范围很大(即从 SQCIF 到 HDTV);典型地,视频与嵌
入的音频、文本与/或语音相关;视频可以通过先进的视频编解码器来处理;并且理想的观测距离很大程度
上取决于应用。
在 ITU-R BT.500 建议书中规定的主观评估方法应在这一新的背景下应用。此外,可以采用新的方法完
成对多媒体系统的调查,以满足用户对多媒体领域特性的要求。
本建议书描述评估多媒体应用视频质量的非交互式主观评估方法。这些方法可用于不同目的,包括但
不限于:算法的选择、对视听系统性能的评定,以及在视听连接期间对视频质量等级进行评估。
与本建议书相关的术语和定义请参见附件 1 的附录 3。
2
共性
2.1 观测条件
表 1 列出了建议的观测条件。所用的显示器尺寸和类型应符合正在调查的应用。由于多媒体应用中使
用了若干种显示技术,因此,所有有关评估中所用显示器的相关信息(例如制造商、型号和规范),都应予
以报告。
当使用基于个人电脑的系统来展示序列时,还应报告系统的特性(例如视频显示卡)。
表 2 显示了一个有关正在测试的多媒体系统配置数据记录的例子。
如果通过使用特定的解码器-播放器组合来获取测试图像,那么这些图像必须独立于特有的外观,以
便获得匿名的显示器。有必要确保质量评估不受原始环境知识的影响。
ITU-R BT.1788 建议书
3
当测试中评估的系统使用降低的图形格式时,例如 CIF、SIF 或 QCIF 等,应在显示屏的一个窗口上显
示片段。屏幕上背景的颜色应为 50%的灰色。
表 1
用在多媒体质量评估中的、建议的观测条件
参 数
观测距离(1)
屏幕最高亮度
非活动屏幕亮度与最高亮度之比
当在完全黑暗的屋内仅显示黑色等级时,屏幕亮度与相应的白色等级峰值之比
图形监视器背景亮度与图形亮度峰值之比(2)
背景色度(3)
屋内背景亮度(2)
(1) 观测距离通常取决于应用。
(2) 该值表示允许最大可察觉失真的设置,对某些应用,允许更高值或者取决于应用。
(3) 对 PC 监视器,背景色度应尽可能接近显示器的“白点”色度。
设 置
限制的:1-8 H
非限制的:取决于观测者的喜好
70-250 cd/m2
≤ 0.05
≤ 0.1
≤ 0.2
D65
≤ 20 lux
表 2
测试中的多媒体系统的配置
参 数
规 范
显示器类型
显示器尺寸
视频显示卡
制造商
型号
图像信息
2.2 源信号
源信号直接提供基准图形以及测试中的系统的输入。源片段的质量应尽可能高。作为一个指导原则,
视频信号应使用 YUV(4:2:2、4:4:4 格式)或 RGB(24 或 32 位)记录于多媒体文件中。当实验者有
兴趣对来自不同实验室的结果进行比较时,需要使用一组公共的源片段,以消除更大的变化源。
4
ITU-R BT.1788 建议书
2.3 测试材料的选择
测试场景的数目和类型对解释主观评估的结果而言是至关重要的。某些过程可能导致大多数片段相同
程度的损伤。在这种情况下,用少量片段(例如两个)获得的结果应提供一个有意义的评价。不过,新的
系统常常具有一定的影响,这很大程度上取决于场景或片段内容。在这种情况下,应选定测试场景的数目
和类型,以便为标准的节目编排提供合理的概括。此外,应为测试中的系统选定“关键但不太过度”的材
料。“不太过度”这个短语指的是,场景可以仍是标准电视节目编排内容可想象的组成部分。有关场景复杂
度的一个有用提示可由其空间和时间感知特性来提供。在附件 1 的附录 1 中,对空间和时间感知特性的测
量有更详细的陈述。
2.4 条件和锚定的范围
由于大多数评估方法对范围变化和观测条件分布是敏感的,因此判断会议应包括变化因素的全部范围。
不过,这可能与更加严格的范围近似,通过提出某些可能成为尺度极限的条件。这些可以作为例子而陈述,
并确定为最大的极限(直接锚定)或分布于整个会议中,并且不被确定为最大的极限(间接锚定)。可能的
话,应使用大的质量范围。
2.5 观测者
筛选后的观测者数目应至少为 15。他们应当不是专家,在某种意义上,他们与图形质量没有直接利害
关系,只是作为其日常工作的一部分,并且他们不是经验丰富的评估者。在会议召开前,应使用斯内伦
(Snellen)或朗多(Landolt)视力表,对观测者进行(校正)标准视觉灵敏度筛选,并使用特别选择的视
力表(如 Ishihara),进行标准颜色视觉筛选。
需要的评估者数目依采用的测试程序的敏感度和可靠性而定,并取决于所追求效果的期望大小。
实验者应尽可能详细地包括其评估小组成员的特点,以利于对该因素做进一步研究。提供的建议数据
可以包括:职业类别(例如广播机构职员、大学学生、办公室工作人员)、性别和年龄范围。
2.6 评估说明
应仔细向评估者介绍评估方法、损伤类型或可能出现的质量因子、等级评定尺度、时间安排等。除了
那些在测试中使用、但具备可比灵敏度的训练片段外,展示待评估损伤范围和类型的训练片段应与场景一
同使用。
2.7 实验设计
实验者接下来要选择实验的设计方法,以便实现特定的成本和精度目标。最好是在实验中至少包括两
份复制品(即相同条件下的重复试验)。重复使计算个体的可靠性变得可能,而且如果必要,从某些对象中
放弃不可靠的结果。此外,重复确保测试中的学习效果在某种程度上能够得以平衡。通过在各次测试会议
开始之时包括一些“虚拟陈述”,可以在处理学习效果过程中获得进一步的改进。这些条件应是有代表性的
陈述,在会议的后期予以显示。在对测试结果进行统计分析过程中,不考虑初步的陈述。
ITU-R BT.1788 建议书
5
会议是一系列的陈述,不应超过半个小时。
当测试多个场景或算法时,场景或算法的陈述次序应是随机的。可能要对随机的次序进行修改,以便
确保相同场景或相同算法不会出现在紧邻的时间段中(即连续地出现)。
3
评估方法
利用 ITU-R BT.500 建议书中的方法,可以对多媒体系统的视频性能进行检测。§ 3.1 提供了选定方法的
列表。
§ 3.2 描述了另一种方法,称为 SAMVIQ,它利用了多媒体领域的特性,并可用于多媒体系统的性能
评估。
3.1
ITU-R BT.500 建议书中的方法
以下 ITU-R BT.500 建议书中的方法,应用于评估多媒体系统的视频质量。
如 ITU-R BT.500 建议书附件 1 § 4 中所述的双刺激损伤尺度(DSIS)方法。
如 ITU-R BT.500 建议书附件 1 § 5 中所述的双刺激连续质量尺度(DSCQS)方法。
如 ITU-R BT.500 建议书附件 1 § 6.1 中所述的单刺激(SS)方法。
如 ITU-R BT.500 建议书附件 1 § 6.2 中所述的刺激-比较(SC)方法。
如 ITU-R BT.500 建议书附件 1 § 6.3 中所述的单刺激连续质量评估(SSCQE)方法。
—
—
—
—
—
3.2 多媒体视频质量(SAMVIQ)的主观评估
在该方法中,观测者准许使用一个片段的若干个版本。当所有版本都经观测者评定后,可对之后的片
段内容进行评估。
不同版本可由观测者通过计算机图形接口随机选择。根据需要,观测者可以停止、评审并修改某个片
段各个版本的评分。该方法包括一个显性基准(即未经处理的)片段,以及相同片段的若干个版本,这些
版本包括经处理的和未经处理的(即隐含基准)片段。片段的各个版本都单独显示,并使用一个类似于在
DSCQS 方法中使用的连续质量尺度来评价。因此,该方法在功能上与利用随机访问的单刺激方法十分类似,
但只要观测者想要观测,他就可以观测显性基准,这使得该方法类似于使用一个基准的方法。
SAMVIQ 质量评估方法使用连续质量尺度,以提供对视频片段内在质量的测量。各个观测者在从 0 到 100
评级的连续尺度上移动一个滑条,该连续尺度用 5 个线性排列的质量项目来注释(很好、好、一般、差、
很差)。
逐个场景地进行质量评估(见图 1),包括显性基准、隐含基准和各种各样的算法。
6
ITU-R BT.1788 建议书
为更好地理解这一方法,定义了以下特定词汇:
场景:视听内容;
片段:综合处理过或未经处理的场景;
算法:一种或多种图像处理方法。
3.2.1 显性、隐含的基准与算法
评估方法通常包括质量锚,以稳定结果。在 SAMVIQ 方法中,出于以下原因,考虑了两个高质量锚。
已经完成的一些测试表明,可以使用显性基准来最大限度地缩小分值的标准差,而不使用隐含的基准或不
使用基准。尤其是对多媒体数字信号编解码器性能的评估,最好使用显性基准来获得最可靠的结果。为了
评估基准的内在质量,也可加上隐含基准,而不是显性参考,原因是陈述是匿名的,并且是经过处理的片
段。显性名称“基准”会对大约 30%的观测者产生影响。这些观测者对显性基准可能给出最高分(100 分),
而该分值总的说来有别于隐含基准对应的分值。值得注意的是,当没有可用的基准时,测试仍有可能进行,
但标准的偏差会显著增大。
SAMVIQ 方法适用于多媒体内容,原因是它可能结合图像处理的不同特点,例如多媒体数字信号编解
码器类型、图像格式、比特率、时间更新、图像缩放等。算法这个名称总结了这些特点的其中一个特点或
其组合。
3.2.2 测试条件
在场景期间,临界点的变化是受到限制的,原因是在其它方法(提供一个综合分值,如单刺激方法)
隐含使用的相同规则后选择同样的内容。最大的片段观测期为 10 秒或 15 秒,对获得稳定的和可靠的质量
分值而言,这已足够。应使用专用的解码器-播放器或其产品的屏幕拷贝,以保持适当的显示性能。
3.2.3 测试机构
a)
如图 1 所示,逐个场景地进行测试。
b)
c)
d)
e)
f)
对当前场景,可能以任何次序来播放任何片段,并为其打分。每个片段都可以多次播放和打分。
从一个场景到另一个场景,对片段的访问是随机的,防止观测者试图根据已排好的次序、以完全相
同的方式来做出判定。实际上,在一个测试中,算法的次序仍保持相同,以便简化对结果的分析和
陈述。只有来自相同按钮的相应访问是随机的。
对第一次观测,当前的片段必须在打分之前全部播放过;否则,可能立即打分和停止。
为测试下一个场景,必须为当前场景的所有片段打分。
为完成测试,必须为所有场景的所有片段打分。
ITU-R BT.1788 建议书
7
8
ITU-R BT.1788 建议书
SAMVIQ 方法通过软件来实现。除了图 1 中所示的访问按钮,“播放”、“停止”、“下一个场景”和“上
一个场景”按钮都是必需的,以便允许观测者管理不同场景的表述(例如,参见附件 1 的附录 2)。当观测
者已给出一个分值,那么应在该场景对应的访问按钮下方显示出来。当一个片段的所有不同版本都已经过
评级时,仍允许观测者对分值进行比较,并且如有必要,可以对分值进行修改。不必评估当前的整个片段,
原因是,在第一遍观测中,已经突出了大的差别。
1
摘要信息
附 件 2
数据表述与分析
为了复制测试或比较不同测试的结果,需要提供有关测试环境的精确数据。因此,如表 3 所示,建议
报告有关测试环境的信息。
表 3
测试摘要信息
方法名称
显示技术
显示器的参考名称
最大亮度等级(cd/m²)
黑色亮度等级(cd/m²)
黑色等级设置:PLUGE(前面所述可察觉的黑色等级距离门限=8)。否则表示门限值。
背景亮度等级(cd/m²)
亮度(lux)
观测距离:
— 不受限制的:在显示器之前
— 受限制的:nH
显示器尺寸(对角线,以英寸表示)
宽/高显示比
显示格式(行与列的数目)
图像输入格式(行与列的数目)
图像输出格式(1)(行与列的数目)
白色色温:D65 否则
白色彩色坐标(x,y)
有效观测者数目
(1) 当处理输入图像时,例如在显示器上重新调节输入图像时,需要该信息。