logo资料库

ITU-R BT.1788 建议书 (视频主观质量评价标准).pdf

第1页 / 共13页
第2页 / 共13页
第3页 / 共13页
第4页 / 共13页
第5页 / 共13页
第6页 / 共13页
第7页 / 共13页
第8页 / 共13页
资料共13页,剩余部分请下载后查看
ITU-R P
ITU-R BT.1788 建议书 1 ITU-R BT.1788 建议书 对多媒体应用中视频质量的主观评估方法 (ITU-R 102/6 号研究课题) 范围 数字广播系统允许提供多媒体和数据广播应用,包括视频、音频、静态图像、文本和图表。本建议书 规定评估多媒体应用视频质量的非交互式主观评估方法。 (2007 年) 国际电联无线电通信全会, 考虑到 a) 许多国家正在引入数字广播系统; 利用数字广播系统,已经引入或计划引入包括视频、音频、静态图像、文本、图表等的多媒体和数 b) 据广播服务; 多媒体服务将涉及广播基础设施,其特点是可能使用固定或移动接收机、固定和可变的帧速率、不 c) 同的图像格式、先进的视频编解码、丢包等; d) e) f) g) h) 有必要规定性能要求,并验证为各项带有性能要求的服务而考虑的技术解决方案的适宜性; 这种验证将主要涉及在受控条件下对视频质量的主观评估; 在 ITU-R BT.500 建议书中规定的主观评估方法可以用于多媒体应用; 除了在 ITU-R BT.500 建议书中规定的那些主观评估方法外,还可使用其它的主观评估方法; 采用标准方法在不同实验室间实现信息交换是十分重要的; 建议 测试的一般方法,即在附件 1 中所述的图像质量评估的评定尺度和观测条件,应用于实验室实验, 1 并且只要可能,可用于多媒体应用中的运营评估; 2 3 在所有的测试报告中都应对测试配置、测试材料、观测者和方法做全面描述; 为了促进不同实验室之间的信息交换,应依据附件 2 中详述的统计方法对收集到的数据进行处理。
2 ITU-R BT.1788 建议书 注 1 — 适于多媒体应用中视频质量主观评估的视频材料库,需由无线电通信第 6 研究组做进一步完善。 1 引言 附 件 1 评估方法描述 许多国家已着手部署数字广播系统,它将允许提供包括视频、音频、静态图像、文本和图表等在内的 多媒体和数据广播应用。 需要标准的主观评估方法来规定性能要求,并验证为各项应用而考虑的技术解决方案的适宜性。主观 方法是必要的,原因是它们提供了测量法,允许业界更直接地预测最终用户的反应。 广播系统需要交付明显不同于当前在用的多媒体应用:信息通过固定与/或移动接收机访问;帧速率可 以是固定的,或者是可变的;可能的图像尺寸变化范围很大(即从 SQCIF 到 HDTV);典型地,视频与嵌 入的音频、文本与/或语音相关;视频可以通过先进的视频编解码器来处理;并且理想的观测距离很大程度 上取决于应用。 在 ITU-R BT.500 建议书中规定的主观评估方法应在这一新的背景下应用。此外,可以采用新的方法完 成对多媒体系统的调查,以满足用户对多媒体领域特性的要求。 本建议书描述评估多媒体应用视频质量的非交互式主观评估方法。这些方法可用于不同目的,包括但 不限于:算法的选择、对视听系统性能的评定,以及在视听连接期间对视频质量等级进行评估。 与本建议书相关的术语和定义请参见附件 1 的附录 3。 2 共性 2.1 观测条件 表 1 列出了建议的观测条件。所用的显示器尺寸和类型应符合正在调查的应用。由于多媒体应用中使 用了若干种显示技术,因此,所有有关评估中所用显示器的相关信息(例如制造商、型号和规范),都应予 以报告。 当使用基于个人电脑的系统来展示序列时,还应报告系统的特性(例如视频显示卡)。 表 2 显示了一个有关正在测试的多媒体系统配置数据记录的例子。 如果通过使用特定的解码器-播放器组合来获取测试图像,那么这些图像必须独立于特有的外观,以 便获得匿名的显示器。有必要确保质量评估不受原始环境知识的影响。
ITU-R BT.1788 建议书 3 当测试中评估的系统使用降低的图形格式时,例如 CIF、SIF 或 QCIF 等,应在显示屏的一个窗口上显 示片段。屏幕上背景的颜色应为 50%的灰色。 表 1 用在多媒体质量评估中的、建议的观测条件 参 数 观测距离(1) 屏幕最高亮度 非活动屏幕亮度与最高亮度之比 当在完全黑暗的屋内仅显示黑色等级时,屏幕亮度与相应的白色等级峰值之比 图形监视器背景亮度与图形亮度峰值之比(2) 背景色度(3) 屋内背景亮度(2) (1) 观测距离通常取决于应用。 (2) 该值表示允许最大可察觉失真的设置,对某些应用,允许更高值或者取决于应用。 (3) 对 PC 监视器,背景色度应尽可能接近显示器的“白点”色度。 设 置 限制的:1-8 H 非限制的:取决于观测者的喜好 70-250 cd/m2 ≤ 0.05 ≤ 0.1 ≤ 0.2 D65 ≤ 20 lux 表 2 测试中的多媒体系统的配置 参 数 规 范 显示器类型 显示器尺寸 视频显示卡 制造商 型号 图像信息 2.2 源信号 源信号直接提供基准图形以及测试中的系统的输入。源片段的质量应尽可能高。作为一个指导原则, 视频信号应使用 YUV(4:2:2、4:4:4 格式)或 RGB(24 或 32 位)记录于多媒体文件中。当实验者有 兴趣对来自不同实验室的结果进行比较时,需要使用一组公共的源片段,以消除更大的变化源。
4 ITU-R BT.1788 建议书 2.3 测试材料的选择 测试场景的数目和类型对解释主观评估的结果而言是至关重要的。某些过程可能导致大多数片段相同 程度的损伤。在这种情况下,用少量片段(例如两个)获得的结果应提供一个有意义的评价。不过,新的 系统常常具有一定的影响,这很大程度上取决于场景或片段内容。在这种情况下,应选定测试场景的数目 和类型,以便为标准的节目编排提供合理的概括。此外,应为测试中的系统选定“关键但不太过度”的材 料。“不太过度”这个短语指的是,场景可以仍是标准电视节目编排内容可想象的组成部分。有关场景复杂 度的一个有用提示可由其空间和时间感知特性来提供。在附件 1 的附录 1 中,对空间和时间感知特性的测 量有更详细的陈述。 2.4 条件和锚定的范围 由于大多数评估方法对范围变化和观测条件分布是敏感的,因此判断会议应包括变化因素的全部范围。 不过,这可能与更加严格的范围近似,通过提出某些可能成为尺度极限的条件。这些可以作为例子而陈述, 并确定为最大的极限(直接锚定)或分布于整个会议中,并且不被确定为最大的极限(间接锚定)。可能的 话,应使用大的质量范围。 2.5 观测者 筛选后的观测者数目应至少为 15。他们应当不是专家,在某种意义上,他们与图形质量没有直接利害 关系,只是作为其日常工作的一部分,并且他们不是经验丰富的评估者。在会议召开前,应使用斯内伦 (Snellen)或朗多(Landolt)视力表,对观测者进行(校正)标准视觉灵敏度筛选,并使用特别选择的视 力表(如 Ishihara),进行标准颜色视觉筛选。 需要的评估者数目依采用的测试程序的敏感度和可靠性而定,并取决于所追求效果的期望大小。 实验者应尽可能详细地包括其评估小组成员的特点,以利于对该因素做进一步研究。提供的建议数据 可以包括:职业类别(例如广播机构职员、大学学生、办公室工作人员)、性别和年龄范围。 2.6 评估说明 应仔细向评估者介绍评估方法、损伤类型或可能出现的质量因子、等级评定尺度、时间安排等。除了 那些在测试中使用、但具备可比灵敏度的训练片段外,展示待评估损伤范围和类型的训练片段应与场景一 同使用。 2.7 实验设计 实验者接下来要选择实验的设计方法,以便实现特定的成本和精度目标。最好是在实验中至少包括两 份复制品(即相同条件下的重复试验)。重复使计算个体的可靠性变得可能,而且如果必要,从某些对象中 放弃不可靠的结果。此外,重复确保测试中的学习效果在某种程度上能够得以平衡。通过在各次测试会议 开始之时包括一些“虚拟陈述”,可以在处理学习效果过程中获得进一步的改进。这些条件应是有代表性的 陈述,在会议的后期予以显示。在对测试结果进行统计分析过程中,不考虑初步的陈述。
ITU-R BT.1788 建议书 5 会议是一系列的陈述,不应超过半个小时。 当测试多个场景或算法时,场景或算法的陈述次序应是随机的。可能要对随机的次序进行修改,以便 确保相同场景或相同算法不会出现在紧邻的时间段中(即连续地出现)。 3 评估方法 利用 ITU-R BT.500 建议书中的方法,可以对多媒体系统的视频性能进行检测。§ 3.1 提供了选定方法的 列表。 § 3.2 描述了另一种方法,称为 SAMVIQ,它利用了多媒体领域的特性,并可用于多媒体系统的性能 评估。 3.1 ITU-R BT.500 建议书中的方法 以下 ITU-R BT.500 建议书中的方法,应用于评估多媒体系统的视频质量。 如 ITU-R BT.500 建议书附件 1 § 4 中所述的双刺激损伤尺度(DSIS)方法。 如 ITU-R BT.500 建议书附件 1 § 5 中所述的双刺激连续质量尺度(DSCQS)方法。 如 ITU-R BT.500 建议书附件 1 § 6.1 中所述的单刺激(SS)方法。 如 ITU-R BT.500 建议书附件 1 § 6.2 中所述的刺激-比较(SC)方法。 如 ITU-R BT.500 建议书附件 1 § 6.3 中所述的单刺激连续质量评估(SSCQE)方法。 — — — — — 3.2 多媒体视频质量(SAMVIQ)的主观评估 在该方法中,观测者准许使用一个片段的若干个版本。当所有版本都经观测者评定后,可对之后的片 段内容进行评估。 不同版本可由观测者通过计算机图形接口随机选择。根据需要,观测者可以停止、评审并修改某个片 段各个版本的评分。该方法包括一个显性基准(即未经处理的)片段,以及相同片段的若干个版本,这些 版本包括经处理的和未经处理的(即隐含基准)片段。片段的各个版本都单独显示,并使用一个类似于在 DSCQS 方法中使用的连续质量尺度来评价。因此,该方法在功能上与利用随机访问的单刺激方法十分类似, 但只要观测者想要观测,他就可以观测显性基准,这使得该方法类似于使用一个基准的方法。 SAMVIQ 质量评估方法使用连续质量尺度,以提供对视频片段内在质量的测量。各个观测者在从 0 到 100 评级的连续尺度上移动一个滑条,该连续尺度用 5 个线性排列的质量项目来注释(很好、好、一般、差、 很差)。 逐个场景地进行质量评估(见图 1),包括显性基准、隐含基准和各种各样的算法。
6 ITU-R BT.1788 建议书 为更好地理解这一方法,定义了以下特定词汇: 场景:视听内容; 片段:综合处理过或未经处理的场景; 算法:一种或多种图像处理方法。 3.2.1 显性、隐含的基准与算法 评估方法通常包括质量锚,以稳定结果。在 SAMVIQ 方法中,出于以下原因,考虑了两个高质量锚。 已经完成的一些测试表明,可以使用显性基准来最大限度地缩小分值的标准差,而不使用隐含的基准或不 使用基准。尤其是对多媒体数字信号编解码器性能的评估,最好使用显性基准来获得最可靠的结果。为了 评估基准的内在质量,也可加上隐含基准,而不是显性参考,原因是陈述是匿名的,并且是经过处理的片 段。显性名称“基准”会对大约 30%的观测者产生影响。这些观测者对显性基准可能给出最高分(100 分), 而该分值总的说来有别于隐含基准对应的分值。值得注意的是,当没有可用的基准时,测试仍有可能进行, 但标准的偏差会显著增大。 SAMVIQ 方法适用于多媒体内容,原因是它可能结合图像处理的不同特点,例如多媒体数字信号编解 码器类型、图像格式、比特率、时间更新、图像缩放等。算法这个名称总结了这些特点的其中一个特点或 其组合。 3.2.2 测试条件 在场景期间,临界点的变化是受到限制的,原因是在其它方法(提供一个综合分值,如单刺激方法) 隐含使用的相同规则后选择同样的内容。最大的片段观测期为 10 秒或 15 秒,对获得稳定的和可靠的质量 分值而言,这已足够。应使用专用的解码器-播放器或其产品的屏幕拷贝,以保持适当的显示性能。 3.2.3 测试机构 a) 如图 1 所示,逐个场景地进行测试。 b) c) d) e) f) 对当前场景,可能以任何次序来播放任何片段,并为其打分。每个片段都可以多次播放和打分。 从一个场景到另一个场景,对片段的访问是随机的,防止观测者试图根据已排好的次序、以完全相 同的方式来做出判定。实际上,在一个测试中,算法的次序仍保持相同,以便简化对结果的分析和 陈述。只有来自相同按钮的相应访问是随机的。 对第一次观测,当前的片段必须在打分之前全部播放过;否则,可能立即打分和停止。 为测试下一个场景,必须为当前场景的所有片段打分。 为完成测试,必须为所有场景的所有片段打分。
ITU-R BT.1788 建议书 7
8 ITU-R BT.1788 建议书 SAMVIQ 方法通过软件来实现。除了图 1 中所示的访问按钮,“播放”、“停止”、“下一个场景”和“上 一个场景”按钮都是必需的,以便允许观测者管理不同场景的表述(例如,参见附件 1 的附录 2)。当观测 者已给出一个分值,那么应在该场景对应的访问按钮下方显示出来。当一个片段的所有不同版本都已经过 评级时,仍允许观测者对分值进行比较,并且如有必要,可以对分值进行修改。不必评估当前的整个片段, 原因是,在第一遍观测中,已经突出了大的差别。 1 摘要信息 附 件 2 数据表述与分析 为了复制测试或比较不同测试的结果,需要提供有关测试环境的精确数据。因此,如表 3 所示,建议 报告有关测试环境的信息。 表 3 测试摘要信息 方法名称 显示技术 显示器的参考名称 最大亮度等级(cd/m²) 黑色亮度等级(cd/m²) 黑色等级设置:PLUGE(前面所述可察觉的黑色等级距离门限=8)。否则表示门限值。 背景亮度等级(cd/m²) 亮度(lux) 观测距离: — 不受限制的:在显示器之前 — 受限制的:nH 显示器尺寸(对角线,以英寸表示) 宽/高显示比 显示格式(行与列的数目) 图像输入格式(行与列的数目) 图像输出格式(1)(行与列的数目) 白色色温:D65 否则 白色彩色坐标(x,y) 有效观测者数目 (1) 当处理输入图像时,例如在显示器上重新调节输入图像时,需要该信息。
分享到:
收藏