企业数据中台建设
- 4 -
- 16 -
1 为什么需要数据中台
1.1 数据中台的由来 - 4 -
1.2 数据中台是什么 - 4 -
1.3 数据中台与传统数仓的区别 - 5 -
1.4 数据中台的价值 - 5 -
2 哪些企业适合做数据中台 - 6 -
3 数据中台建设方法论与策略 - 8 -
3.1 阿里3One体系 - 9 -
3.2 相关建设策略 - 10 -
4 数据中台建设方案 - 11 -
4.1 整体架构 - 11 -
4.2 元数据
- 12 -
4.2.1 元数据包括哪些 - 12 -
4.2.2 元数据中心整体架构 - 12 -
4.3 数据地图 - 13 -
4.4 指标管理 - 15 -
4.5 数据模型规范设计
4.5.1 数仓模型介绍 - 16 -
4.5.2 表命名规范 - 18 -
4.5.3 涉及相关功能 - 18 -
4.5.4 模型设计步骤 - 19 -
4.6 数据质量 - 24 -
4.6.1 如何提升数据质量 - 24 -
4.6.2 数据质量稽核规则 - 24 -
4.6.3 建立全链路数据质量监控 - 25 -
4.6.4 数据质量中心DQC架构 - 26 -
4.7 成本优化 - 26 -
4.8 数据服务 - 27 -
4.8.1 数据服务架构 - 27 -
4.8.2 查询引擎选择 - 28 -
4.9 实时数仓 - 29 -
5 业界数据中台介绍资料
5.1 华为云dayu介绍 - 30 -
5.2 阿里数据中台介绍
5.3 网易数据中台介绍
5.4 转转数据中台介绍
- 30 -
- 30 -
- 30 -
- 30 -
1 为什么需要数据中台
1.1 数据中台的由来
随着互联网的高速发展,背后对数据的需求越来越多,数据的应用场景也越来越多。大
规模数据的应用,也逐渐暴露出一些问题。业务发展前期,为了快速实现业务的需求,烟囱式
的开发导致企业不同业务线,甚至相同业务线的不同应用之间,数据都是割裂的。两个数据应
用的相同指标,展示的结果不一致,导致运营对数据的信任度下降。数据割裂的另外一个问
题,就是大量的重复计算、开发,导致的研发效率的浪费,计算、存储资源的浪费,大数据的
应用成本越来越高。这些问题的根源在于,数据无法共享。
于是乎在2016 年,阿里巴巴率先提出了“数据中台”的口号。2018、2019数据中台在
各行业开始不断崛起。数据中台的核心,是避免数据的重复计算,通过数据服务化,提高数据
的共享能力,赋能数据应用以及企业的数智化发展。
1.2 数据中台是什么
数据中台是一套“让企业数据用起来”的机制,是一套能持续不断把数据变成资产并服务
共享于业务的机制。
数据中台是指通过数据技术,对全域数据(结构化数据和非结构化数据)进行采集汇聚、
存储、计算、加工,同时统一数据标准和口径、规范数据质量和安全权限,最终将资产通过服
务共享开放出去,进而为客户提供高效服务,赋能各类型的数据应用。
数据中台的宗旨,是避免数据的重复计算,消除数据标准和口径不一致的问题,通过数据
服务化,提高数据的共享能力,赋能数据应用,加速企业的数据价值变现。
1.3 数据中台与传统数仓的区别
1.4 数据中台的价值
数据中台改变了企业原来利用数据的形式(传统数仓、BI),通过业务数据化、数据资产
化、资产服务化、服务业务化的四化良性高效闭环,加速了从数据资源到数据资产到价值变现
的过程,提高了企业的业务响应力、创新力、价值力。通过降本增效,数据化智能运营,打造
出数据驱动的智能化企业,从而更高效的为企业创造更多的价值。
2 哪些企业适合做数据中台
不可否认,数据中台的构建需要非常大的投入:
一方面数据中台的建设离不开系统支撑,研发系统需要投入大量的人力,而这些系统是否
能够匹配中台建设的需求,还需要持续打磨。
另外一方面,面对大量的数据需求,要花费额外的人力去做数据模型的重构,也需要下定
决心。
所以数据中台的建设,需要结合企业的现状,根据需要进行选择。我认为企业在选择数据
中台的时候,应该考虑这样几个因素:
1、 企业是否有大量的数据应用场景: 数据中台本身并不能直接产生业务价值,数据中
台的本质是支撑快速地孵化数据应用。所以当你的企业有较多数据应用的场景时(一般有3个
以上就可以考虑)。
2、 经过了快速的信息化建设,企业存在较多的业务数据的孤岛,需要整合各个业务系统
的数据,进行关联的分析,此时,你需要构建一个数据中台。
3、 当你的团队正在面临效率、质量和成本的苦恼时,面对大量的开发,却不知道如何提
高效能,数据经常出问题而束手无策,老板还要求你控制数据的成本,这个时候,数据中台可
以帮助你。
4、 当你所在的企业面临经营困难,需要通过数据实现精益运营,提高企业的运营效率的
时候,你需要构建一个数据中台,同时结合可视化的BI数据产品,实现数据从应用到中台的完
整构建,这种类型往往出现在传统企业中。
5、 企业规模也是必须要考虑的一个因素,数据中台因为投入大,收益偏长线,所以更适
合业务相对稳定的大公司,并不适合初创型的小公司。
如果你的公司有以上几个特征,基本不要怀疑,请把数据中台提上日程吧。
3 数据中台建设方法论与策略
关于数据中台的建设,目前并没有一个标准的解决方案,也没有一个数据中台能适用于所
有的公司,每个公司都应该结合自己的业务规模及数据需求现状来研发适合自己公司的数据中
台。阿里是最早提出中台概念的,阿里数据中台的3One建设体系(OneId、OneData、
OneService)也成了业界建设数据中台的主要参考方法论,这里我们大概介绍下,并推荐一
些建设策略供大家参考。
3.1 阿里3One体系
3.2 相关建设策略
4 数据中台建设方案
4.1 整体架构
4.2 元数据
4.2.1 元数据包括哪些
4.2.2 元数据中心整体架构
目前开源方案有:Netflix Metacat(数据字典采集) 、Apache Atlas(数据血缘采集)
。我们设计时可以参考借鉴开源的部分实现思路。
4.3 数据地图
数据地图是基于元数据中心构建的一站式企业数据资产目录,可以看作是元数据中心的界
面。数据开发、分析师、数据运营、算法工程师都可以在数据地图上进行数据的检索,解决
了“不知道有哪些数据?”“到哪里找数据?”“如何准确的理解数据”的难题。
主要功能有:
1、支持根据标签(主题域、分层信息、指标)、表名、字段名等进行检索;
2、支持表级和字段级检索;
3、数据总览目录 支持按技术资产 业务资产 指标资产等目录进行下砖导览;
4、表详细信息包括表的基础信息,字段信息、分区信息、产出信息以及数据血缘信息
等。
数据资产目录:
数据检索:
表详情:
4.4 指标管理
4.5 数据模型规范设计
4.5.1 数仓模型介绍