图 数 据 库 白 皮 书
中国信息通信研究院云计算与大数据研究所
CCSA TC601大数据技术标准推进委员会
2019年12月
1
中国信息通信研究院
版权声明
本白皮书版权属于中国信息通信研究院云计算与大数
据研究所,并受法律保护。转载、摘编或利用其它方式使用
本白皮书文字或者观点的,应注明“来源:中国信息通信研
究院云计算与大数据研究所”。违反上述声明者,联盟将追
究其相关法律责任。
牵头编写单位:中国信息通信研究院
参与编写单位(排名按字母序):阿里云计算有限公司、北京百度网讯科技有限
公司、北京大学计算机科学技术研究所、北京费马科技有限公司、成都四方伟业
软件股份有限公司、华为技术有限公司、杭州欧若数网科技有限公司、京东数字
科技控股有限公司、腾讯云计算(北京)有限责任公司、星环信息科技(上海)有
限公司、亚信科技(中国)有限公司、浙江创邻科技有限公司、浙江蚂蚁小微金融
服务集团股份有限公司
编写组成员:
中国信息通信研究院:李俊逸、魏凯、姜春宇、马鹏玮、闫树、王卓
北京费马科技有限公司:林恒、朱晓伟、洪春涛
京东数字科技控股有限公司:张国庆、钱勇、周亮、赵彤彤、卢周
浙江蚂蚁小微金融服务集团股份有限公司:方扬、付志嵩、李克鹏、朴昕阳
阿里云计算有限公司:王炎
华为技术有限公司:赵丽丽、秋政
北京大学王选计算机研究所:彭鹏、邹磊、张雨、李文杰、刘钰
浙江创邻科技有限公司:张晨、吴菁、周研、祝丽娟
星环信息科技(上海)有限公司:王志平、罗圣美、吕程
成都四方伟业软件股份有限公司:廖伟,张永飞,赵神州,王军,李今朝
杭州欧若数网科技有限公司:Sherman Ye、吴敏、王玉珏、陈恒、侯凤林
北京百度网讯科技有限公司:周力,袁鹏程,汪洋,蔡歌,卢文祥
腾讯云计算(北京)有限责任公司:邵宗文、成杰峰
亚信科技(中国)有限公司:姚罡、吴鹏、郝佳
2
中国信息通信研究院
前 言
当今时代,数据的关联可以产生重要的商业价值。无论我们是想
了解在线社交网络中用户之间的关系,或者电子商务中用户和商品之
间的关系,还是金融网络中信贷关系,理解和分析大量高度关联数据
的能力将成为企业的核心竞争力。图处理技术在这其中扮演着重要的
角色。大型互联网公司最早就意识到了这一点,并开始创建自己的专
有图处理技术,这些技术被用于社交关系挖掘、网页检索与排序、推
荐系统等,并获得了巨大的商业成功。
图处理技术解决了当今宏观业务的一个大趋势:利用高度连接的
数据中复杂、动态的关系来产生洞察力和竞争优势。相比关系数据库,
图数据库是表示和查询连接数据的最佳方式。随着近几年的快速发展,
通用的图数据库已经逐步成熟,基于图数据库的应用如知识图谱、风
险防控、智能物联网在金融、电信、公共安全、医疗等行业快速落地,
并形成了较好的应用效果。
然而相比其他的数据库技术,图数据库还处于起步阶段,相关概
念介绍、应用场景描述和选型实施的资料较少。本白皮书从概述、发
展历程、应用场景、技术架构、选型要素和实施建议等多个维度介绍
图数据库,力图为用户了解和选择图数据库提供一个全局视图。由于
编写的水平和时间有限,难免有所纰漏,欢迎大家批评指正。
3
中国信息通信研究院
目 录
一、图数据库概述..................................................................................... 6
(一)图数据库的概念....................................................................... 7
(二)图数据库发展情况................................................................. 10
(三)图数据库的技术优势.............................................................12
二、图数据库应用场景........................................................................... 15
(一)知识图谱................................................................................. 15
(二)行业应用................................................................................. 16
三、图数据库技术详解........................................................................... 19
(一)技术架构................................................................................. 19
(二)主流的图查询语言................................................................. 20
(三)图数据的计算......................................................................... 21
(四)图处理引擎............................................................................. 23
四、图数据库选型要素........................................................................... 25
(一)基本能力................................................................................. 25
(二)分布式能力............................................................................. 25
(三)兼容能力................................................................................. 26
(四)管理能力................................................................................. 26
(五)安全能力................................................................................. 27
(六)高可用能力............................................................................. 27
(七)性能......................................................................................... 27
五、图数据库实施建议........................................................................... 29
4
中国信息通信研究院
(一)业务理解................................................................................. 29
(二)图 Schema 设计....................................................................... 30
(三)业务数据加工......................................................................... 31
(四)验证和测试............................................................................. 32
(五)监控运维................................................................................. 32
(六)从关系型数据库迁移到图数据库.........................................33
六、总结和展望....................................................................................... 35
5
中国信息通信研究院
一、 图数据库概述
图是基于事物关联关系的模型表达,通过将实体与关系点边化的
方式将知识结构化地保存,因此具有天然的可解释性,从而备受学术
界和工业界的推崇。图数据是指采用图结构存储的数据。当前,通信、
互联网、电子商务、社交网络和物联网等领域中积累了大量的图数据,
其规模巨大并且不断增长:Facebook 的社交网络在 2011 年已超过 8
亿顶点;而腾讯 QQ 社交网络目前在 10 亿个顶点的规模;在电信行
业中,广州市仅一个月内由电话呼叫方和被呼叫方组成的图就超过
4.5 千万个顶点、1.5 亿条边;而 ClueWeb1数据包含海量的网页,2012
年公布的数据集已经达到 10 亿个顶点、425 亿条边,仅是存储边的
列表文件就超过 400GB。
图 1 社交网络
传统的关系型数据库在处理这些关联数据时,大量的连接操作造
1 ClueWeb12 数据集,http://lemurproject.org/clueweb12/specs.php
6
中国信息通信研究院
成性能成指数级下降;而 NoSQL 数据库(图数据库以外)采用的数
据结构和分布式架构,更适合离散、关联关系弱的数据存储管理。图
数据库中丰富的关系表示,完整的事务支持,提供了高效的关联查询
和完备的实体信息。因此,有人认为图数据库是一项具有变革意义的
技术,不仅仅是因为它提供了功能强大且新颖的数据技术,更是因为
它带来了直接的商业利益,让人们有着充分的动机去替换已有的数据
平台。
2019 年初 Gartner2数据与分析峰会上将图列为 2019 年十大数据
和分析趋势之一,并认为到 2022 年,全球图处理及图数据库的应用
都将以每年 100%的速度迅猛增长。
接下来本章将从图数据库的概念、价值、发展情况以及与其它数
据库的对比三个方面介绍图数据库的基本情况。
(一)图数据库的概念
图数据库以图论为理论基础,使用图模型,将关联数据的实体作
为顶点(vertex)存储,关系作为边(edge)存储,解决了数据复杂
关联带来的严重随机访问问题。在分类上,图数据库可归类为 NoSQL
数据库。
1. 图模型
图是一组对象的集合,由顶点和边构成,顶点表示实体或实例,
如人、账号、组织、业务等。它们可以类比于关系型数据库里的记录
2 Gartner2019 年十大数据和分析技术趋势,
https://www.gartner.com/en/newsroom/press-releases/2019-02-18-gartner-identifies-top-10-data-and-a
nalytics-technolo
7
中国信息通信研究院
(record)或行(row),或文档数据库(document database)里的文
档(document)。边是将连接顶点的线,表示顶点之间的关联关系。
边是图数据库中的关键概念,在关系型数据库或文档存储数据库中,
没有对边的抽象概念进行直接实现。
图模型主要包含属性图、RDF 图两种。
属性图模型
属性图模型由顶点、边及其属性构成。图数据库通常是指基于属
性图模型的图数据库。模型由以下 4 个部分组成:
1) 顶点。顶点是事物(Object)的抽象,可以是“人”、“书”等实
体,也可以是“端口”、“IP”等抽象;
2) 顶点的属性。顶点的属性是对事物的具体描述,根据顶点代
表的类型不同,每个顶点可以有不同的属性,比如以“人”作为顶点,
属性可以是“姓名”“身高”、“生肖”等;
3) 边。边是两个顶点间的关联关系,有向或无向。比如两个顶
点是“人”和“职务”,那关系“任职”是连接它们的边;
4) 边的属性。和顶点的属性类似,每条边上也有属性。比如连
接顶点“人”和“职务”的“当选”边,属性就是具体的当选时间。
图 2 属性图模型实例
RDF 模型
8
中国信息通信研究院