logo资料库

图数据库白皮书.pdf

第1页 / 共37页
第2页 / 共37页
第3页 / 共37页
第4页 / 共37页
第5页 / 共37页
第6页 / 共37页
第7页 / 共37页
第8页 / 共37页
资料共37页,剩余部分请下载后查看
版权声明
前 言
一、图数据库概述
(一)图数据库的概念
(二)图数据库发展情况
(三)图数据库的技术优势
二、图数据库应用场景
(一)知识图谱
(二)行业应用
三、图数据库技术详解
(一)技术架构
(二)主流的图查询语言
(三)图数据的计算
(四)图处理引擎
四、图数据库选型要素
(一)基本能力
(二)分布式能力
(三)兼容能力
(四)管理能力
(五)安全能力
(六)高可用能力
(七)性能
五、图数据库实施建议
(一)业务理解
(二)图Schema设计
(三)业务数据加工
(四)验证和测试
(五)监控运维
(六)从关系型数据库迁移到图数据库
六、总结和展望
图 数 据 库 白 皮 书 中国信息通信研究院云计算与大数据研究所 CCSA TC601大数据技术标准推进委员会 2019年12月 1 中国信息通信研究院
版权声明 本白皮书版权属于中国信息通信研究院云计算与大数 据研究所,并受法律保护。转载、摘编或利用其它方式使用 本白皮书文字或者观点的,应注明“来源:中国信息通信研 究院云计算与大数据研究所”。违反上述声明者,联盟将追 究其相关法律责任。 牵头编写单位:中国信息通信研究院 参与编写单位(排名按字母序):阿里云计算有限公司、北京百度网讯科技有限 公司、北京大学计算机科学技术研究所、北京费马科技有限公司、成都四方伟业 软件股份有限公司、华为技术有限公司、杭州欧若数网科技有限公司、京东数字 科技控股有限公司、腾讯云计算(北京)有限责任公司、星环信息科技(上海)有 限公司、亚信科技(中国)有限公司、浙江创邻科技有限公司、浙江蚂蚁小微金融 服务集团股份有限公司 编写组成员: 中国信息通信研究院:李俊逸、魏凯、姜春宇、马鹏玮、闫树、王卓 北京费马科技有限公司:林恒、朱晓伟、洪春涛 京东数字科技控股有限公司:张国庆、钱勇、周亮、赵彤彤、卢周 浙江蚂蚁小微金融服务集团股份有限公司:方扬、付志嵩、李克鹏、朴昕阳 阿里云计算有限公司:王炎 华为技术有限公司:赵丽丽、秋政 北京大学王选计算机研究所:彭鹏、邹磊、张雨、李文杰、刘钰 浙江创邻科技有限公司:张晨、吴菁、周研、祝丽娟 星环信息科技(上海)有限公司:王志平、罗圣美、吕程 成都四方伟业软件股份有限公司:廖伟,张永飞,赵神州,王军,李今朝 杭州欧若数网科技有限公司:Sherman Ye、吴敏、王玉珏、陈恒、侯凤林 北京百度网讯科技有限公司:周力,袁鹏程,汪洋,蔡歌,卢文祥 腾讯云计算(北京)有限责任公司:邵宗文、成杰峰 亚信科技(中国)有限公司:姚罡、吴鹏、郝佳 2 中国信息通信研究院
前 言 当今时代,数据的关联可以产生重要的商业价值。无论我们是想 了解在线社交网络中用户之间的关系,或者电子商务中用户和商品之 间的关系,还是金融网络中信贷关系,理解和分析大量高度关联数据 的能力将成为企业的核心竞争力。图处理技术在这其中扮演着重要的 角色。大型互联网公司最早就意识到了这一点,并开始创建自己的专 有图处理技术,这些技术被用于社交关系挖掘、网页检索与排序、推 荐系统等,并获得了巨大的商业成功。 图处理技术解决了当今宏观业务的一个大趋势:利用高度连接的 数据中复杂、动态的关系来产生洞察力和竞争优势。相比关系数据库, 图数据库是表示和查询连接数据的最佳方式。随着近几年的快速发展, 通用的图数据库已经逐步成熟,基于图数据库的应用如知识图谱、风 险防控、智能物联网在金融、电信、公共安全、医疗等行业快速落地, 并形成了较好的应用效果。 然而相比其他的数据库技术,图数据库还处于起步阶段,相关概 念介绍、应用场景描述和选型实施的资料较少。本白皮书从概述、发 展历程、应用场景、技术架构、选型要素和实施建议等多个维度介绍 图数据库,力图为用户了解和选择图数据库提供一个全局视图。由于 编写的水平和时间有限,难免有所纰漏,欢迎大家批评指正。 3 中国信息通信研究院
目 录 一、图数据库概述..................................................................................... 6 (一)图数据库的概念....................................................................... 7 (二)图数据库发展情况................................................................. 10 (三)图数据库的技术优势.............................................................12 二、图数据库应用场景........................................................................... 15 (一)知识图谱................................................................................. 15 (二)行业应用................................................................................. 16 三、图数据库技术详解........................................................................... 19 (一)技术架构................................................................................. 19 (二)主流的图查询语言................................................................. 20 (三)图数据的计算......................................................................... 21 (四)图处理引擎............................................................................. 23 四、图数据库选型要素........................................................................... 25 (一)基本能力................................................................................. 25 (二)分布式能力............................................................................. 25 (三)兼容能力................................................................................. 26 (四)管理能力................................................................................. 26 (五)安全能力................................................................................. 27 (六)高可用能力............................................................................. 27 (七)性能......................................................................................... 27 五、图数据库实施建议........................................................................... 29 4 中国信息通信研究院
(一)业务理解................................................................................. 29 (二)图 Schema 设计....................................................................... 30 (三)业务数据加工......................................................................... 31 (四)验证和测试............................................................................. 32 (五)监控运维................................................................................. 32 (六)从关系型数据库迁移到图数据库.........................................33 六、总结和展望....................................................................................... 35 5 中国信息通信研究院
一、 图数据库概述 图是基于事物关联关系的模型表达,通过将实体与关系点边化的 方式将知识结构化地保存,因此具有天然的可解释性,从而备受学术 界和工业界的推崇。图数据是指采用图结构存储的数据。当前,通信、 互联网、电子商务、社交网络和物联网等领域中积累了大量的图数据, 其规模巨大并且不断增长:Facebook 的社交网络在 2011 年已超过 8 亿顶点;而腾讯 QQ 社交网络目前在 10 亿个顶点的规模;在电信行 业中,广州市仅一个月内由电话呼叫方和被呼叫方组成的图就超过 4.5 千万个顶点、1.5 亿条边;而 ClueWeb1数据包含海量的网页,2012 年公布的数据集已经达到 10 亿个顶点、425 亿条边,仅是存储边的 列表文件就超过 400GB。 图 1 社交网络 传统的关系型数据库在处理这些关联数据时,大量的连接操作造 1 ClueWeb12 数据集,http://lemurproject.org/clueweb12/specs.php 6 中国信息通信研究院
成性能成指数级下降;而 NoSQL 数据库(图数据库以外)采用的数 据结构和分布式架构,更适合离散、关联关系弱的数据存储管理。图 数据库中丰富的关系表示,完整的事务支持,提供了高效的关联查询 和完备的实体信息。因此,有人认为图数据库是一项具有变革意义的 技术,不仅仅是因为它提供了功能强大且新颖的数据技术,更是因为 它带来了直接的商业利益,让人们有着充分的动机去替换已有的数据 平台。 2019 年初 Gartner2数据与分析峰会上将图列为 2019 年十大数据 和分析趋势之一,并认为到 2022 年,全球图处理及图数据库的应用 都将以每年 100%的速度迅猛增长。 接下来本章将从图数据库的概念、价值、发展情况以及与其它数 据库的对比三个方面介绍图数据库的基本情况。 (一)图数据库的概念 图数据库以图论为理论基础,使用图模型,将关联数据的实体作 为顶点(vertex)存储,关系作为边(edge)存储,解决了数据复杂 关联带来的严重随机访问问题。在分类上,图数据库可归类为 NoSQL 数据库。 1. 图模型 图是一组对象的集合,由顶点和边构成,顶点表示实体或实例, 如人、账号、组织、业务等。它们可以类比于关系型数据库里的记录 2 Gartner2019 年十大数据和分析技术趋势, https://www.gartner.com/en/newsroom/press-releases/2019-02-18-gartner-identifies-top-10-data-and-a nalytics-technolo 7 中国信息通信研究院
(record)或行(row),或文档数据库(document database)里的文 档(document)。边是将连接顶点的线,表示顶点之间的关联关系。 边是图数据库中的关键概念,在关系型数据库或文档存储数据库中, 没有对边的抽象概念进行直接实现。 图模型主要包含属性图、RDF 图两种。  属性图模型 属性图模型由顶点、边及其属性构成。图数据库通常是指基于属 性图模型的图数据库。模型由以下 4 个部分组成: 1) 顶点。顶点是事物(Object)的抽象,可以是“人”、“书”等实 体,也可以是“端口”、“IP”等抽象; 2) 顶点的属性。顶点的属性是对事物的具体描述,根据顶点代 表的类型不同,每个顶点可以有不同的属性,比如以“人”作为顶点, 属性可以是“姓名”“身高”、“生肖”等; 3) 边。边是两个顶点间的关联关系,有向或无向。比如两个顶 点是“人”和“职务”,那关系“任职”是连接它们的边; 4) 边的属性。和顶点的属性类似,每条边上也有属性。比如连 接顶点“人”和“职务”的“当选”边,属性就是具体的当选时间。 图 2 属性图模型实例  RDF 模型 8 中国信息通信研究院
分享到:
收藏