前 言
随着互联网+、社交网络、智能推荐等大数据的迅猛增长,大批 NoSQL 数
据库已经成为互联网开发的新标配。对于大数据中关联关系的处理,图数据库的
处理性能远超其他类型数据库,被广泛应用于金融、工业、政务、零售、电信和
生命科学等各学科和工业领域,受欢迎程度遥遥领先。与此同时,图数据库也面
临着底层设计和上层语言表达的多重挑战。
本期,我们选取图数据库作为 TR 报告的主题。报告围绕图数据库的基本概
念、技术发展、产业应用、人才概况和热点趋势五大方面进行深入挖掘。其中基
本概念、技术发展和产业应用章节由国内领先的图数据库团队即陈文光教授带领
的清华团队完成。该团队在 OSDI、EuroSys、ATC 等顶级会议中发表过多篇相
关论文,他们编写的图计算系统具有业界领先的性能,并在金融、互联网等多个
领域得到实际使用。
此外,报告的人才概况和热点趋势章节依托清华大学唐杰教授自主研发的
“科技情报大数据挖掘与服务系统平台”(简称 AMiner),以及第三方机构研
报、媒体报道等公开资料,通过人工智能、大数据分析与挖掘、知识图谱、自然
语言处理等技术,并结合文献计量学等情报学方法制作生成。
I
报告的数据来源与研究方法
1. 数据来源
本报告中与图数据库领域相关的人才数据来均自于 AMiner 系统。系统采用
数据挖掘和社会网络分析与挖掘等技术,提供研究者信息抽取、研究者社会网络
关系识别、研究者能力图谱、审稿人智能推荐等功能,提供研究者和研究领域的
全面知识,为科研管理和服务提供有力支撑。平台自 2006 年上线以来,经过十
多年的建设发展,已建立运作良好的数据采集及集成更新机制,收录论文文献超
3 亿,专利 1 亿,学者 1.3 亿,其中超过 50 万的学者经过了人工标注与审核吸引
了全球 220 个国家/地区 1000 多万独立 IP 的访问,年度访问量 1,800 余万次。
2.学者及研究领域筛选方法
本次报告中的人才和技术篇采用大数据挖掘技术,对图数据库领域内的学者
信息进行深入挖掘,参考 h-index、发表论文数、论文被引频次等指标,对学者
信息进行筛选,比较和分析了图数据库领域人才在全球和国内的分布概况,领域
的技术研究发展趋势,以及技术领先国家、机构趋势。
(1)由图数据库顾问组推荐期刊/会议列表和领域关键词,推荐的期刊/会议
为数据管理国际会议(The ACM Special Interest Group on Management of Data,
SIGMOD)、超大型数据库国际会议(International Conference on Very Large
Databases, VLDB)、IEEE 国际数据工程会议(IEEE International Conference on
Data Engineering, ICDE)、图形数据管理经验与系统国际研讨会(International
Workshop on Graph Data Management Experiences & Systems, GRADES)、扩展数
据库技术国际会议(International Conference on Extending Database Technology,
EDBT)。领域关键词具体包括:图数据库(Graph databases)、属性图(Property
graphs)、资源描述框架(Resource Description Framework, RDF)、图分析(Graph
analysis)、ACID 事务属性(Atomicity, Consistency, Isolation, Durability, ACID
transaction)、图匹配(Graph patterns)。
(2)通过 AMiner 大数据平台对 2000 ~ 2019 年发表在推荐期刊/会议的论文
进行采集和清洗,并对论文作者信息进行深度挖掘;
II
(3)基于专家顾问推荐的领域关键词,根据论文作者的研究兴趣标签、作
者名下的所有论文标题和摘要,筛选与图数据库领域相关,且 h-index 排名最靠
前的 2,000 位研究学者;
(4)综合运用知识图谱、自然语言处理、可视化、文献计量学等技术手段,
基于论文和学者数据,分析得出图数据库领域的技术研究发展趋势,以及技术领
先的国家、机构趋势。
3.代表性学者画像
“学者画像”是 AMiner 平台的核心服务功能之一,其具体示例如图 1 所示。
学者画像的特色在于除了提供专家学者如姓名、单位、地址、联系方式、个人简
介、教育经历等个人基本信息之外,还利用团队多年的命名排歧相关技术基础,
建立了较为完全的学者 — 论文映射关系,分析挖掘学者学术评价、研究兴趣发
展趋势分析、学者合作者关系网络等信息。
图 1 代表性学者画像示例
III
4.领域热点话题
为了帮助读者了解图数据库领域的热点研究话题,本报告针对 AMiner 平台
上 收 录 的 专 家 推 荐 的 100 篇 必 读 论 文
(https://www.aminer.cn/search/pub?q=Cognitive%20Graph),采用主题生成模型
(Latent Dirichlet Allocation, LDA)分析了这些论文的研究主题分布情况1。
1 LDA 模型. [EB/OL]https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation
IV
目 录
1 概述篇........................................................................................................................1
1.1 概念.........................................................................................................1
1.1.1 图模型..........................................................................................1
1.1.2 图数据库......................................................................................3
1.2 图数据库的历史发展.............................................................................3
1.3 图数据库的特征.....................................................................................5
1.3.1 优势..............................................................................................5
1.3.2 数据库横向对比..........................................................................6
1.4 图数据的未来挑战.................................................................................7
1.5 图数据库基准测试.................................................................................7
2 技术篇......................................................................................................................10
2.1 图数据模型...........................................................................................10
2.1.1 RDF............................................................................................ 10
2.1.2 属性图........................................................................................11
2.1.3 属性图与 RDF 模型的区别...................................................... 12
2.2 图数据存储...........................................................................................13
2.2.1 链表............................................................................................13
2.2.2 排序树........................................................................................15
2.2.3 哈希表........................................................................................16
2.2.4 NoSQL 数据库...........................................................................16
2.3 图数据查询...........................................................................................19
2.3.1 Cypher........................................................................................ 21
2.3.2 Gremlin.......................................................................................22
2.3.3 SPARQL.....................................................................................23
2.3.4 GQL............................................................................................24
2.3.5 其他查询语言............................................................................25
2.3.6 查询优化....................................................................................26
2.4 常见图数据库.......................................................................................27
2.4.1 Neo4j.......................................................................................... 27
V
2.4.2 ArangoDB.................................................................................. 27
2.4.3 Virtuoso......................................................................................27
2.4.4 Neptune...................................................................................... 27
2.4.5 JanusGraph................................................................................. 28
2.4.6 TigerGraph................................................................................. 28
2.4.7 TuGraph......................................................................................28
2.4.8 常见图数据库对比....................................................................28
3 产业应用篇..............................................................................................................31
4 人才篇......................................................................................................................43
4.1 学者情况概览.......................................................................................43
4.1.1 全球学者概况............................................................................43
4.1.2 国内学者概况............................................................................46
4.2 代表性学者及其论文解读...................................................................48
5 趋势篇......................................................................................................................68
5.1 国家趋势...............................................................................................68
5.2 论文技术趋势.......................................................................................69
5.3 领域热点话题.......................................................................................70
5.4 国家自然科学基金支持情况...............................................................72
5.5 专利趋势...............................................................................................73
6 结语..........................................................................................................................76
参考文献......................................................................................................................77
VI