国内首个指导区域数据资源化的知识型
产品“政务逻辑数据模型(GLDM)”
产品介绍
前言
随着信息技术与经济社会的交汇融合,引发了数据迅猛增长,数据已成为国
家基础性战略资源。大数据正日益对全球生产、流通、分配、消费活动以及经济
运行机制、社会生活方式和国家治理能力产生重要影响。当前,运用大数据推动
经济转型升级、完善社会治理、提升政府服务和管理能力已成为趋势。
2015 年,国务院印发《促进大数据发展行动纲要》,文件精神要求,加强
顶层设计和统筹协调,大力推动政府信息系统和公共数据互联开放共享,加快政
府信息平台整合,消除信息孤岛,推进数据资源向社会开放。通过促进大数据发
展,加快建设数据强国,释放技术红利、制度红利和创新红利,提升政府治理能
力,推动经济转型升级。随后,各省市纷纷出台了相关促进大数据大数据发展的
政策文件。其中,贵州省更是在 2014 年就前瞻性地发布了《贵州省大数据产业
发展规划纲要(2014-2020 年)》。这些发展计划的落地实施,宣告了一个全新
的政府大数据时代的到来。
“十五”以来,我国战略布局建设国家基础信息资源体系。明确到 2018 年,
跨部门共享校核的国家人口基础信息库、法人单位信息资源库、自然资源和空间
地理基础信息库等国家基础信息资源体系基本建成,实现与各领域信息资源的汇
聚整合和关联应用。在加快建设完善这些基础信息资源库的过程当中,由于缺乏
科学统一的顶层设计与建设标准,各地普遍面临着数据汇聚交换不畅、开放共享
不足、应用落地不易的问题。
基于此,我们亟需一套理念先进、落地实用、具有高可扩展性的数据模型
(LDM),来指导城市数据资源库的建设。
在世界范围,虽然以天睿(TeraData)、IBM 和 Oracle 为代表的跨国公司
在数据仓库领域垄断了金融、电信等行业的数据模型(LDM),并由此在包括中
国的国际市场上获取了超额利润,但是,在政府领域跨地域、跨部门、跨业务的
融合数据资源模型研究成果方面,目前在国际上还是一个空白。当前国内的大规
模数据共享、整合、集中、开放建设,为研究跨地域、跨部门、跨业务的数据资
源模型提供了非常好的创新土壤和实践机会。
在贵州,率先遭遇了数据跨地域、跨部门、跨业务清洗融合的挑战,为应对
挑战,贵州提出了“块数据”的创新概念与理念体系,过去一年多来,贵州省公
共大数据重点实验室围绕块数据与区域治理,联合贵州大学、华傲数据管理研究
团队、北京航空航天大学、复旦大学、中山大学、东北大学的学者,展开了深入
研究,正在基于块数据的创新理念和已经建立好的概念模型,总结贵州块数据实
践,逐步建立块数据与区域治理的理论体系。
借鉴国际上其他行业的 LDM(逻辑数据模型)研发经验,基于块数据逐步建
立起来的理论体系,由英国苏格兰皇家院士樊文飞教授、国家千人计划特聘专家
贾西贝博士、曾获国际数据库领域顶级会议 SIGMOD 和 VLDB 最佳论文奖、从
Facebook 归国的于文渊博士、曾被牛津大学校刊报道的徐磊博士及国内金融、
政府领域数据仓库资深专家组成的华傲数据管理研究团队,联合贵州省公共大数
据重点实验室、提升政府治理能力大数据应用技术国家工程实验室,总结过去五
年包括贵州在内的国内主要省市区数据资源共享整合与集中的实践经验,推出了
知识型产品——跨层级、跨地域、跨系统、跨部门、跨业务的“政务逻辑数据模
型(GLDM,Government Logical Data Model)”,用以指导与规范城市数据资
源库(数据湖)的建设与数据应用的落地,促进数据经济发展、完善社会治理体
系、提升政府服务能力。
克强总理在全国推进简政放权电视电话会议上提到,“我国信息数据资源
80%以上掌握在各级政府部门手里,但‘深藏闺中’造成了极大浪费。” 2016
年 10 月中共中央政治局第三十六次集体学习,习近平主席指出“以数据集中和
共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数
据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。”
跨层级、跨地域、跨系统、跨部门、跨业务的政务逻辑数据模型(GLDM)是
衔接块数据理论体系和目前各省市区大规模开展的数据采集、共享、整合、集中、
开放等实践的工程指南,也是省市区数据资源库(数据湖)建设的方法论,涵盖
以 ER 模型表达的逻辑数据模型(LDM)及相应的概念数据模型和物理数据模型的
指导建议、数据资源库建设与数据元表达的标准与规范、数据建模、建库、整合、
清洗的开发环境与工具集、数据资源库建设与管理的最佳实践。
这一模型与相应规范、工具集和方法论体系,将会应用于跨层级、跨地域、
跨系统、跨部门、跨业务的数据共享、整合与集中,以数据融合引领业务融合,
助力将掌握在各级政府部门手里的我们国家 80%的碎片化数据资源整合成高质
量、高价值的数据资产。
1.产品概述
1.1.关于本产品
LDM 是逻辑数据模型 Logic Data Model 的简称。通过数据和关系反映业务
的一个过程,是进行数据管理、分析和交流的重要手段,也是 IT 和业务人员沟
通的桥梁。
在金融、保险和证券行业,天睿(TeraData)公司的数据模型 FS-LDM
(Financial Services Logical Data Model)已经成为了事实上的行业标准;
在电信行业,IBM 和天睿公司的数据模型也占据垄断市场地位。 基本上,在传
统数据行业,数据模型和标准都是被国外公司所垄断的,国内大数据厂商在实施
项目的过程中要么是直接套用国外模型来实施,要么模仿国外模型出一个本地化
的定制版本,但在模型的可复制能力上严重不足。
然而,在政府领域,截至目前,并没有能满足跨层级、跨地域、跨系统、跨
部门、跨业务的统一政务数据模型来指导城市数据基础资源库的构建和开发。而
导致这一现状的原因,主要有以下三个:
1)国外政府还没有大规模跨层级、跨地域、跨系统、跨部门、跨业务数据
整合与集中的实践。首先,国外政府受社会条件、法律法规、舆论环境的限制,
还没有大规模建设实现多种跨度的的数据资源库。其次,国外政府掌握的数据量
只占了全社会数据的一小部分,不像我国,通过各类业务系统的沉淀,已经采集
并掌握了超过 80%的信息资源。没有数据,就不可能谈大数据,没有大数据,就
没有形成大数据中心库的客观条件,也就不可能生成政府行业的逻辑数据模型。
2)我国政府大数据还处于发展的初级阶段。自我国 2013 年进入大数据元年
以来,国家相继发布了系列政策文件,促进我国大数据产业发展,个别地市也陆
续走马上线城市大数据运营管理平台等项目,启动建设地方城市数据基础资源库,
开启了政府大数据时代。但由于各地发展大数据的基础条件不一,重点推进应用
落地的领域不一,各业务委办单位数据汇聚共享开放程度不一,数据目录标准不
一等客观原因,还处于多头探索、摸着石头过河的阶段,并未形成一套经过验证
的政务逻辑数据模型。
3)学界理论与应用研究缺乏。在此之前,关于多源数据融合、数据清洗、
数据质量、块数据的研究还在进行时,阶段性出来的研究成果还没有来得及应用
于实践。在这方面,我们国家第一个大数据方向的 973 项目,由哈工大、人民大
学、东北大学、香港科大和华傲数据联合开展的海量数据可用性研究,从 2012
年开始,历时五年,在数据的量质融合管理(数量与质量融合管理)方面产生了
一批成果,但这个 973 项目一直到去年才刚刚结题。这些成果应用到实践中来,
需要一些时间,也需要解决很多工程实践的问题。在数据质量方面,苏格兰皇家
院士樊文飞院士的研究成果曾于 2008 年获得“英国计算机最高奖罗杰尼达姆奖”
(新华社报道),这些数据清洗的研究成果虽然已经逐渐介绍进入国内,但还没
有完全应用于实践。贵州省公共大数据重点实验室的块数据研究正在进行时,在
此之前,成果尚未和实践有效对接。提升政府治理能力大数据应用技术国家工程
实验室刚刚成立,这方面的研究正在筹划与展开。
而今,联合发布单位利用块数据理论与区域治理的最新研究成果,结合 5
年以来国内大数据城市建设成果突出的深圳、沈阳、贵阳等 12 个省区市不同层
级政府的政务数据模型的设计和实施经验,凝练形成了可以广泛应用于国内大数
据城市建设的政务逻辑数据模型--GLDM(Government Logical Data Model)。
GLDM 的诞生,意味着大数据城市数据资源库的建设有了统一的建设流程,
统一的数据标准,统一的数据模型和统一的方法论。它将终结大数据城市数据资
源库数据标准缺失与不统一、缺乏顶层设计、信息处处孤岛、数据无法驱动应用
等局面。
1.2.产品目标
GLDM 产品必须达成以下目标才算成功:
1)、数据覆盖全。大数据政务数据资源库不仅仅需要获取各政府部门,如
安全、海关、信用、财政、金融、税收、农业、统计、进出口、资源环境、产品
质量、企业登记监管等领域数据资源,还需要对这些数据资源进行加工、清洗、
融合、汇总、标记等处理,产生新的数据。这些新的数据,也是整个数据资源池
(“数据湖”)的一部分。
2)、应用支撑给力。除了源数据可以直接支撑应用外,最重要的是经过处
理后的数据,可以支撑决策支持、市民服务、政务数据服务平台、块数据等。
3)、数据标准丰富。引用国际标准、国内标准、行业标准、地方标准,以
及自定义的标准来对数据做统一性规范。
4)、具备高可扩展性。一个可扩展的、动态的模型能够经得住时间的考验,
当业务改变时,能够将对数据模型的影响减至最小甚至完全不受影响;
5)、拥有较高可用性。没有完美的模型,但模型至少能够满足当前需求。
1.3.范围
本产品只是建设大数据城市数据资源库的方法论,它只是一个知识型产品,
并不是一个软件产品。
本产品也并不是整个大数据城市数据资源库的全部,它不可能包含某个或某
些特定应用场景的描述和约束,但它会从一些应用的共性中提炼一些主题库出来。
本产品包括产品白皮书、实体关系(ER)模型(包含 Powerdesigner ER 模
型和 Excel 版本)、概要设计说明书、详细设计说明书、数据标准文档、实施指
南、推荐开发环境、内置工具集、说明文档以及自述文件(Readme)。
2.产品特点
GLDM 是响应智慧城市、大数据城市治理的需求而设计的数据模型。通过多
年的大数据城市项目建设,积累经验、迭代优化形成的成熟的数据模型。既能满
足传统的数据分析和数据服务需求,也能动态扩展,适应新的业务变化。
2.1.高度自由的扩展性
GLDM 是一个具有高度扩展性的模型,在 GLDM 模型的原子层(也即针对源数
据的接口层)和整合层,严格按照三范式设计,保证了数据的无冗余设计。
通过这种严格的范式设计,可以保证模型的高扩展性。一旦新增加一个实体,
只要将其与其它实体通过关联关系关联起来,则可以在不修改原模型的状态下实
现模型扩展。
2.2.丰富的数据标准引用
GLDM 收集了丰富的各地域(含国家)、各行各业、各个职能部门的数据标
准,总计超过 12 万项,其中国家标准 3。9 万余项,行业标准 4。8 万余项,地
方标准 1。9 万余项,国际标准 1。8 万余项。作为数据一致性的重要参考。按照
GLDM 模型流程开发的数据, 各行业、各职能部门甚至社会大众都可以按照标准
方便地解读、利用数据。
GLDM 针对人口、法人、证照、安全、海关、信用、财政、金融、税收、农
业、统计、进出口、资源环境、产品质量、企业登记监管等领域,收集、整理并
制订了相关标准,累计 670 余项,以形成对各类数据元的约束。
2.3.完善的元数据机制
在 GLDM 产品中,所有的数据元标准、业务描述,以及数据抽取、清洗和转
换规则,全部存放在元数据配置表中。
通过读取并翻译数据抽取、清洗和转换的规则,可以生成数据处理的程序,
将这些程序按规则调度起来,就可以处理数据。
同时,开放数据元标准、业务描述,以及数据抽取、清洗和转换规则的访问
接口,再通过解析这些配置规则,就可以支撑对元数据进行详情展示、血缘分析
和影响分析等应用。
2.4.先进的分层设计理念
GLDM 在传统的数据仓库架构基础上,进行了许多创新改进,通过兼容传统
数据仓库与大数据技术平台,使得数据仓库具有较强的先进性;同时采用先进的
数据仓库多层多域的设计理念,特别是其中的原子层,它是针对政务仓库的特点
进行了重点优化设计,使得数据仓库具有非常好的灵活性,高扩展性,也易于维
护。
缓冲层:缓冲区是数据仓库的数据入口,其数据表模型与源系统完全一致,
数据不会做任何处理,但是会加一个时间戳字段,供贴源层抽取数据用,缓冲层
只保留一定周期的数据,例如保留一周或者一个月的数据,具体周期根据实际情
况决定。
缓冲区的主要作用是:
1)防止后端数据处理出错时,再次执行时反复重抽会给源系统带来不必要
的冲击。
2) 防止二次抽取数据时,因为源系统的更新导致丢失当时数据的快照。
贴源层:贴源层的数据保存了源系统数据的所有信息,并且在此基础上对源
头数据做了历史归档、标准化等处理,该层存储了较长周期的历史数据(一般为
三年),以保证能做历史数据分析。
贴源层的主要作用是:
1)历史数据归档,保证数据能做历史数据分析。
2)标准化数据,保证整个数据仓库用的是一套完整的数据标准。
原子层: 原子层是数据仓库中的最具有设计元素的层,也是最核心的层。
它以某种形式组织或归类分散在各个源表中的信息项,并结合了源数据、业务需
求,从数据和业务需求两个方向的考虑来设计,是具有高度抽象性、原子性等特
点的层。
原子层的主要作用是:
1)通过具体形式的组织和归类,有效的避免了数据冗余、数据缺失等情况
带来的数据不一致问题。
2)由于数据具有高度原子性,整个库的可维护性大大提高,信息能非常方
便地溯源,而且集市层就能够非常灵活的设计宽表。
整合层:整合层是将原子层的多源数据通过一定的规则进行合并,最终整合
成唯一的信息。合并规则需要经过反复验证,只有在若干规则中准确性最高的规
则,才会作为最优规则。合并的时候,会衍生出很多标签或统计信息。如针对某
人的电话号码,就可以衍生出如下指标:最早登记时间,最近登记时间,被多少
个来源登记过,曾经被哪些人作为登记联系方式,在所有人中被最早登记的时间
等。
合并层的主要作用是:消除数据的多义性,保证数据具有唯一准确性。
集市层:集市层是应用基础层,关联拼接整合区的片段表,将这些信息拼在
一起形成各类应用需要的基础宽表;同时生成一些公共的统计指标表,以减少应
用层的重复计算。
集市层的主要作用是:拼接联合生成基础宽表信息,为各种应用提供数据支
持。
应用层:应用层是面向各类个性化应用的数据服务层,向外提供服务的方式
为数据接口,所有的应用,都不允许直接访问数据。敏感数据都要进行加密、脱
敏处理,例如身份证号必须加密。应用接口背后访问的数据,可能是表,物化视
图,普通视图,文件或 HDFS 文件等。同时,数据还可能来自数据库、文件系统
或大数据平台,因此在封装数据接口的时候,兼容了不同的存储介质。
2.5.随意切取的块数据
以一个物理空间或行政区域形成的涉及人、事、物的各类数据的总和及组合,
其中包括点数据、条数据和面数据,这就是所谓的块数据概念。
GLDM 通过包含行政区域信息在内的标准化的地址,将人口、法人、事件、
物品等相关库的实体全部与标准地址建立关联关系,这样,就可以将它们落到市、
区(县)、街道(乡镇)、社区(村)、网格(村)、楼栋、房间等单元中,就
形成了“块数据”。