数据质量评估的六个主要维度
DAMA 版权所有, 翻译修订 by 大数据庞涛 13811850730
摘要
本文描述了评估数据质量的六个方面,由英国 DAMA 工作组制作
定义数据质量
定义评估数据质量的维度
背景
‘数据质量维度’这个词已经被广泛的在业内使用了很多年,然后一直没有一个统一的标准。
数据质量从业者也总是感到困惑,而商业组织的领导们就更迷惑了。
哲人苏格拉底说:智慧从定义术语开始。因此本文旨在定义关键质量维度并给出上下文,以便能形成
大家一致的共识。
卡尔·R·波普爵士说过:"我没有说定义事物不能帮助链接具体问题,但是我强调的是一个术语能否
可以定义出来和大多数问题确实不相关"。基本上,大家相互理解是非常非常必需的。这再次强调了本
文的维度定义是帮助我们如何交流数据质量,而不是为了说明数据本身的含义和如何展现。
2012 五月, DAMA UK 召集志愿者参加一个工作组来考虑出版和发布一些最佳实践,得到了大家的热烈
响应,同时印证了本项工作的意义。
其他数据管理职业组织也一直支持本项工作,如 Julian Schwarzenbach, Chair of the BCS Data Management
Specialist Group 和 Gary Palmer, charter member of IAIDQ to join the working group.
最终稿
1
定义数据质量
目录
定义评估数据质量的维度 .................................................................................................................... 1
背景 .................................................................................................................................................. 1
什么是数据质量维度? ......................................................................................................................... 3
上下文 ............................................................................................................................................... 3
应用 .................................................................................................................................................. 3
如何使用数据质量维度指标 ................................................................................................................ 4
六个核心数据质量维度 ....................................................................................................................... 5
完整性 ............................................................................................................................................... 6
独特性 ............................................................................................................................................... 7
时效性 (时序性) .............................................................................................................................. 7
有效性 ............................................................................................................................................... 8
准确性 ............................................................................................................................................... 9
一致性 ............................................................................................................................................. 10
术语表 .............................................................................................................................................. 12
作者 .................................................................................................................................................. 12
参考文献 ........................................................................................................................................... 13
最终稿
2
定义数据质量
什么是数据质量维度?
一个数据质量 (DQ)维度是数据管理从业者基于已有的一些标准用来评估和衡量数据质量的一个特征*方
面。
例如:
• 测试数据有 93%,还差 7%,这是完整度;
• 测试数据的准确度是 84%
一个 DQ 维度不能和另外一个 DQ 维度类似和混淆。如:
• 其他数据管理的方面如数据仓库重的维度或数据立方体中的维度;
• 物理学中描述一个结构或物体的时间或空间维度
* 特性, 属性或角度
本文中‘数据质量维度’ 指的是:
• 数据集/数据列/数据库可以用来评估数据质量的尺度和角度
上下文
本文列出的最佳实践案例可以帮助数据质量从业者给他们的组织查看和描述他们的数据质量.
本文定义了六个通用的标准的数据质量维度.这可以帮助在考量数据质量的时候消除不一致的理解,消
除理解上的困惑.建议数据质量从业者采用这些维度和定义作为评估和描述数据质量的通用标准.当然,
某些场景里不是所有的维度都能全部用的上.
企业组织使用这些维度来评估贫乏的数据的冲击,从费用,声誉和法律法规等角度来看.
应用
本文提供了一个数据质量评估的检查列表,它不是一个强制性的列表.这个列表会根据不同的商业和工
业需求而不同.
最终稿
3
定义数据质量
为了帮助应用本文的这些评估维度,每个维度都给出了一个仔细设计的学院样例. 这样例是精心挑选出
来的,具有普遍的应用意义.
在尝试使用本文数据质量维度之前,这个组织需要为要评估的数据质量达成一致的质量规则. 这些规则
基于这六个数据质量维度来开发,基于本组织的数据需求和如果不遵照这个质量规则会带来什么影响.
比如:
• 错误的和空缺的电子邮箱地址对任何一个市场活动都有巨大的影响;
• 不精确的个人信息细节可能会导致丢失销售机会或者增加客户抱怨;
• 货物可能被运算到错误的地址;
• 不正确的产品测量数据会导致严重的运算问题,比如产品装不进卡车或者预定了过多的卡车;
数据一般只有在能支持业务过程或者组织决策时才有真正的价值。大家共识的数据质量规则应该考虑
到数据能提供的价值。如果确认这些数据在特定场景有重大价值,那么在该场景下需要更加严谨精确
的数据质量规则。
如何使用数据质量维度指标
选择数据质量的维度和相关指标应该基于商业场景,需求,和风险水平等。注意每一个维度都有不同
的权重,同时未来获得更准确的数据质量,特变需要确定每一个维度对于整体数据质量的影响有多
少。
一个典型的数据质量评估方法可以如下:
确定哪一个数据项需要为了数据质量进行评估,典型的就是那些对于业务运行和管理报告起到关键作
用的数据项。
1. 评估应该哪一个数据质量维度以及相关权重;
2. 对于每一个数据维度,数值定义和取值范围代表着数据质量好坏。请注意,一个数据集可能支
持多种需求,可能还需要多种数据质量评估手段;
3. 对数据项应用评估标准;
4. 审查结果并且决定数据质量是不是可接受的;
5. 数据清洗和数据处理过程优化(防止错误重复)
6. 阶段性重复上述过程来监测数据质量趋势
数据质量审计的结果可以判断出该数据支持特定商业场景的好与坏。要看数据是不是很好地支持特定
的商业需求会需要多种不同的数据质量检查。如果一个商业需求不能够足够地反映到数据质量规则里,
那么数据质量检查就不能提供有效地评估。同样的,当要重复做数据质量检查的时候,一定要看商业数
据的需求是否与上次发生了改变。
最终稿
4
定义数据质量
尽管大部分数据质量维度可以通过分析数据本身获得,但是准确评估数据只能通过下面两种:
• 针对代表事实的数据进行评估,如员工何时考察一个项目;
• 针对权威数据集进行评估,如通过投票列表来检查客户详情;
完整性
• 所有的数据项都被记录了吗?
一致性
• 数据可以匹配上吗?
独特性
• 是单一的数据观测角度吗?
有效性
• 该数据符合规则吗?
准确性
• 该数据能有效反映该领域吗?
时效性
该数据是反映哪个时段的问题?
图1-不同数据维度应用的范例
六个核心数据质量维度
1. 完整性
2. 独特性
3. 时效性
4. 有效性
5. 准确性
6. 一致性
最终稿
5
定义数据质量
完整性
主题
定义
参考
度量
范畴
度量单位
度量类型:
• 描述型
• 连续型
• 离散型
相关维度
其他
举例
最终稿
6
完整性
针对’百分百完整’获取数据的比例
定义什么是百分百完整的商业规则
非空/非奇异点数据的比例
0-100% , 针对衡量的关键数据,记录,或数据集数据库等
百分比
描述型
有效性和准确性
如果一个数据项至关重要,要获取到 100%的完整性, 有效性和准确性还将会检查数据是
不是正确地获得了 100%完整.
学校新生的父母需要完成一个调研表,包括健康状况,紧急联系方式,并确认姓名年龄家
庭住址和学生生日等.
场景:
秋季学期第一个星期末,针对联系表做了一个数据分析’首要紧急联系人电话号码’.
学校有 300 个学生,294 个人有记录,所有完整性是 294/300=98%
定义数据质量
编程逻辑
Count ‘First Emergency Contact Telephone Number’ where not blank in the Contact table/
count all current students in the Contact table.
注脚: 1. 先考察关键数据的完整性, 非关键数据是否完整或许不那么重要
独特性
主题
定义
独特性
如何唯一确定一件事至关重要
数据自身的度量,或它的对标数据项或数据库
分析真实世界和数据集里面的数据记录的可比性. 真实世界的事务可以
由更可信的数据集或相关外部比对来决定.
用单一数据集去比对所有数据集(译者加:看有没有重复或可被替代)
百分比
离散型 (译者加: 男/女, 是/否等)
参考
度量
范畴
度量单位
度量类型
• 描述型
• 连续型
• 离散型
相关维度
一致性
其他
举例
编程逻辑
外部参考
取决于环境因素
一个学校现有 120 的学生和 380 个以前的学生(总共 500 人).可是学生
数据库显示有 520 个不同的学生的记录.这可能包括 Fred Smith 和
Freddy Smith 算成了不同的人,事实上学校只有一个叫 Fred Smith. 这
代表了 500/520 x 100 = 96.2%的独特性.
(Number of things in real world)/(Number of records describing different
things)
IAM 资产信息质量手册
数据管理原理, Keith Gordon
注脚: 1. 独特性就是首先要检查重复度有多少
时效性 (时序性)
主题
最终稿
7
时效性