目次
1 范围.......................................................................................................................................................................4
2 规范性引用文件............................................................................................................................................... 4
3 术语和定义.........................................................................................................................................................4
4 总则.......................................................................................................................................................................6
4.1 数据质量管理....................................................................................................................................... 6
4.2 数据质量描述 ..................................................................................................................................7
4.3 数据质量评价....................................................................................................................................... 8
4.4 质量控制.................................................................................................................................................9
5 数据质量............................................................................................................................................................. 9
5.1 数据质量描述基本原理.....................................................................................................................9
5.2 识别数据质量.....................................................................................................................................12
5.3 数据质量评价过程............................................................................................................................14
5.4 数据质量评价方法............................................................................................................................16
5.5 数据质量控制.....................................................................................................................................17
5.6 报告数据质量信息............................................................................................................................19
附录 A(资料性附录)栅格数据质量评价实例.....................................................................................21
A.1 数据质量评价对象...........................................................................................................................21
A.2 数据质量评价参数 ............................................................................................................................ 21
A.3 数据质量评价参数的获取.............................................................................................................22
A.4 数据质量评价.................................................................................................................................... 24
A.5 结论.......................................................................................................................................................27
前言
制定本规范旨在指导中国科学院“数据应用环境建设和服务”的数据质量管理。
本规范为第一次制定。
本规范由中国科学院计算机信息网络中心提出。
本规范起草单位:中国科学院地理科学与资源研究所、中国科学院计算机信息网络中心。
本规范主要起草人:王春乐、孙崇亮
数据质量管理规范
1 范围
本规范明确了数据质量描述的基本原理,详细说明了识别及报告数据质量信息的基本方
法,规范了数据质量控制的基本原则与方法
本规范适用于中国科学院数据应用环境建设和服务项目中数据质量管理。
2 规范性引用文件
下列规范性引用文件通过本部分的引用而成为本规范的条款。凡是注日期的引用文件,
其随后所有的修改(不包插勘误的内容)或修订版均不适用于本规范。但是,鼓励根据本规
范达成协议的各方,研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最
新版本适用于本规范。
3 术语和定义
3.1 质量
一组固有特性满足要求的程度。
注 1:术语“质量”可使用形容词如差、好或优秀来修饰。
3.2 准确度
在一定观测条件下,观测值及其函数的估值与其真值的偏离程度
3.3 一致性
满足规定的要求
3.4 一致性质量级别
数据质量结果的一个或一组阀值,用于确定数据集符合产品规范规定或用户要求的程度。
3.5 数据质量定量元素
说明数据集质量的量化组成部分
【ISO 19101】
注:数据集的质量定量元素的适用性既取决于数据集的内容也取决于其产品规范,因此
并非所有数据质量定量元素都适用于所有数据集。
3.6 数据质量评价过程
应用与记录质量评价方法及评价结果的操作。
3.7 数据质量测量
数据质量定量元素的取值。
例:正确的属性值所占的百分比。
3.8 数据质量非定量元素
说明数据集质量的非量化组成部分。
【ISO19101】
注:有关数据集目的、使用情况和数据志等信息是非定量元素。
3.9 数据质量结果
数据质量测量得到的一个值或一组值,或者将获取的一个值或一组值同规定的一致性质
量级别相比较得到的评价结果。
示例:数据质量定量元素及其子元素“完事性一多余”的数据质量结果为“90”、数据质量
值类型为“百分比”,是对数据质量范围指定的数据进行数据质量量测而得到的例子。而数据
质量结果为“真”、数据质量值类型为“布尔型变量”是将值(90)同规定的、可接受的一致性
质量级别(85)相比较的例子,记录的评价结果为良好、合格或不合格。
3.10 数据质量范围
记录其质量信息的数据的覆盖范围或特征。
注:一个数据庥的数据质量范围可以由该数据集所属的数据集系列组成,也可由该数据
集本身,或是物理上位于数据集中、具有相同特征的较小的数据组组成。相同特征可以是相
同的要素类型、要素属性或要素关系:可是相同的数据采集标准;可以是相同的数据源;或
是一个指定的地理或时间覆盖范围。
3.11 数据质量定量子元素
数据质量定量元素的组成部分,用于描述质量定量元素某一方面。
3.12 数据质量值类型
记录数据质量结果的值的类型。
示例:“布尔型变量”、“百分比”、“比率”。
注:每个数据质量结果都要给出数据质量值类型。
3.13 数据质量值单位
记录数据质量结果的值的单位。
示例:“米”。
注:只在应用数据质量结果时,才给出数据质量值单位。
3.14 数据集
可识别的数据集合。
注:通过诸如空间覆盖范围或要素类型的控制,数据集在物理上可以是更大数据集较小
的部分。从理论上讲,数据集可以小到更大数据集内的单个要素或要素属性。一张硬拷贝地
图或图表均可以被认为是一个数据集。
3.15 数据集系列
符合相同产品规范的数据集集合。
3.16 要素
现实世界现象的抽象
注:要素可以作为类型或实例出现,当只能用一个含义时,应使用要素类型或要素实例。
3.17 要素属性
要素的特征。
注:一个要素属性包括名称 、数据类型和与之关联的值域等。一个要素实例 的要素属
性同样具有来自该值域的属性值。
3.18 直接评价方法
以数据集内部检验单元检验为基础的数据集质量评价方法。
3.19 非直接评价方法
通过外部知识来评价质量的方法。
3.20 完全检查
检查质量范围内的所有个体。
3.21 检验单元
可被单独描述 或考察的事物。
注:检验单元可以是数据集的任何部分,如要素、要素关系、要素属性或它们的组合。
3.22 总体
检验的检验单元。
3.23 元数据
关于数据的数据。本规范中,具体指描述数据及其环境的数据。
4 总则
4.1 数据质量管理
中国科学院“数据应用环境建设和服务”数据质量管理主要是对中国科学院“数据应用环
境建设和服务”的数据质量进行规范和控制。该规范要求中国科学院“数据应用环境建设和服
务”的数据质量管理必须识别相应产品规范或用户需求中的质量信息,在元数据、质量评价
报告中形成正确的质量描述,并在这些规范上的质量结果均为“合格”。
图 1 为中国科学院“数据应用环境建设和服务”数据质量管理框架。
图 1 数据质量管理框架
4.2 数据质量描述
该规范认为产品规范或用户需求中包含数据质量信息。该规范通过识别其中的质量元素
来描述质量信息。
数据质量应当用以下两个组件来描述:
质量定量元素
质量非定量元素
每个质量定量元素可细分为多个质量定量元素。每个质量定量子元素用多个质量定量子
元素描述子描述。
质量定量元素、质量定量子元素及质量定量子元素描述数据资源满足相应规范中预先设
定的标准的程度并提供定量的质量信息。
质量非定量元素提供非定量的质量信息。
图 2 为数据质量信息框架
4.3 数据质量评价
数据质量评价过程是产生和报告质量结果的一系列步骤。
图 3 描述了评价和报告质量结果的过程流。