图表目录
图 1 知识工程发展历程 .................................................................................................................. 3
图 2 Knowledge Graph 知识图谱 ................................................................................................... 9
图 3 知识图谱细分领域学者选取流程图 .................................................................................... 10
图 4 基于离散符号的知识表示与基于连续向量的知识表示 .................................................... 11
图 5 知识表示与建模领域全球知名学者分布图 ........................................................................ 13
图 6 知识表示与建模领域全球知名学者国家分布统计 ............................................................ 13
图 7 知识表示与建模领域中国知名学者分布图 ........................................................................ 14
图 8 知识表示与建模领域各国知名学者迁徙图 ........................................................................ 14
图 9 知识表示与建模领域全球知名学者 h-index 分布图 .......................................................... 15
图 10 知识获取领域全球知名学者分布图 .................................................................................. 23
图 11 知识获取领域全球知名学者分布统计 .............................................................................. 23
图 12 知识获取领域中国知名学者分布图 .................................................................................. 23
图 13 知识获取领域各国知名学者迁徙图 .................................................................................. 24
图 14 知识获取领域全球知名学者 h-index 分布图 .................................................................... 24
图 15 语义集成的常见流程 ......................................................................................................... 29
图 16 知识融合领域全球知名学者分布图 .................................................................................. 31
图 17 知识融合领域全球知名学者分布统计 .............................................................................. 31
图 18 知识融合领域中国知名学者分布图 .................................................................................. 31
图 19 知识融合领域各国知名学者迁徙图 .................................................................................. 32
图 20 知识融合领域全球知名学者 h-index 分布图 .................................................................... 32
图 21 知识查询与推理领域全球知名学者分布图 ...................................................................... 39
图 22 知识查询与推理领域全球知名学者分布统计 .................................................................. 39
图 23 知识查询与推理领域中国知名学者分布图 ...................................................................... 39
图 24 知识表示与推理领域各国知名学者迁徙图 ...................................................................... 40
图 25 知识查询与推理领域全球知名学者 h-index 分布图 ........................................................ 40
图 26 知识应用领域全球知名学者分布图 .................................................................................. 46
图 27 知识应用领域全球知名学者分布统计 .............................................................................. 46
图 28 知识应用领域中国知名学者分布图 .................................................................................. 47
图 29 知识应用领域各国知名学者迁徙图 .................................................................................. 47
图 30 知识应用领域全球知名学者 h-index 分布图 .................................................................... 48
图 31 行业知识图谱应用 .............................................................................................................. 68
图 32 电商图谱 Schema ................................................................................................................ 69
图 33 大英博物院语义搜索 .......................................................................................................... 70
图 34 异常关联挖掘 ...................................................................................................................... 70
图 35 最终控制人分析 .................................................................................................................. 71
图 36 企业社交图谱 ...................................................................................................................... 71
图 37 智能问答 .............................................................................................................................. 72
图 38 生物医疗 .............................................................................................................................. 72
图 39 知识图谱领域近期热度 ...................................................................................................... 75
图 40 知识图谱领域全局热度 ...................................................................................................... 75
表 1 知识图谱领域顶级学术会议列表 ........................................................................................ 10
表 2 知识图谱引用量前十论文 ................................................................................................... 56
表 3 常识知识库型指示图 ............................................................................................................ 67
摘要
知识图谱(Knowledge Graph)是人工智能重要分支知识工程在大数据环境中的成功应
用,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。
基于此背景,本研究报告对知识图谱这一课题进行了简单梳理,包括以下内容:
知识图谱的概念与研究概况。对知识图谱的概念、分类进行阐述,并分四个阶段对知识
工程的发展历程进行介绍。
知识图谱技术。从知识表示与建模、知识获取、知识融合、知识图谱查询推理及知识图
谱应用五个子领域来划分,并分别介绍每个领域所应用到的技术。
知识图谱领域专家介绍。依据 AMiner 数据平台信息,对知识图谱领域的 5 个细分领域
进行梳理,重点介绍每一细分领域研究学者的研究方向与代表性文章,旨在为学术界、产业
界提供知识图谱技术及学者的分析依据,同时面向政府机关、高校、企业等对知识图谱技术
感兴趣的机构介绍该领域基本概念、研究与应用方向。包括顶尖学者的全球分布、迁徙概况、
学者机构分布、h-index 分析,并依据 AMiner 评价体系,在知识图谱发展过程中近十年的高
引学者进行详细介绍。
知识图谱应用。从通用知识图谱应用和领域知识图谱应用两个方面来介绍。以电子商务、
图书情报、企业商业、船业投资、生物医疗五个领域,从图谱构建与知识应用两个方面介绍
领域知识图谱的技术构建应用与研究现状。
知识图谱趋势研究。对知识图谱的发展趋势特点进行分析。并基于 AMiner 数据平台,
对近期知识图谱领域研究热点进行可视化分析,对未来知识图谱研究方向进行预测。
报告(电子版)实时更新,获取请前往:
https://www.aminer.cn/research_report/5c3d5a8709e961951592a49d?download=true&pathname=
knowledgraph.pdf。
1
1. 概念篇
1.1. 知识图谱概念和分类
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及其之间的
关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和
理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活力,同时也在智能问答中
显示出强大威力,已经成为互联网知识驱动的智能应用的基础设施。
知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信
息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等交叉研究,属人工智能重
要研究领域知识工程的研究范畴。知识图谱于 2012 年由谷歌提出并成功应用于搜索引擎,
是建立大规模知识的一个杀手锏应用。
1.1.1. 知识图谱的概念
1994 年图灵奖获得者、知识工程的建立者费根鲍姆给出的知识工程定义——将知识集
成到计算机系统从而完成只有特定领域专家才能完成的复杂任务。在大数据时代,知识工程
是从大数据中自动或半自动获取知识,建立基于知识的系统,以提供互联网智能知识服务。
大数据对智能服务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需
要利用知识工程为大数据添加语义/知识,使数据产生智慧(Smart Data),完成从数据到信
息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用户关心问题的答
案、为决策提供支持、改进用户体验等目标。知识图谱在下面应用中已经凸显出越来越重要
的应用价值:
知识融合:当前互联网大数据具有分布异构的特点,通过知识图谱可以对这些数据
资源进行语义标注和链接,建立以知识为中心的资源语义集成服务;
语义搜索和推荐:知识图谱可以将用户搜索输入的关键词,映射为知识图谱中客观
世界的概念和实体,搜索结果直接显示出满足用户需求的结构化信息内容,而不是
互联网网页;
问答和对话系统:基于知识的问答系统将知识图谱看成一个大规模知识库,通过理
解将用户的问题转化为对知识图谱的查询,直接得到用户关心问题的答案;
大数据分析与决策:知识图谱通过语义链接可以帮助理解大数据,获得对大数据的
洞察,提供决策支持。
当前知识图谱中包含的主要几种节点有:
2
实体:指的是具有可区别性且独立存在的某种事物。如某一个人、某一座城市、某
一种植物、某一件商品等等。世界万物有具体事物组成,此指实体。实体是知识图
谱中的最基本元素,不同的实体间存在不同的关系。
概念:具有同种特性的实体构成的集合,如国家、民族、书籍、电脑等。
属性:用于区分概念的特征,不同概念具有不同的属性。不同的属性值类型对应于
不同类型属性的边。如果属性值对应的是概念或实体,则属性描述两个实体之间的
关系,称为对象属性;如果属性值是具体的数值,则称为数据属性。
1.1.2. 知识图谱的分类
知识图谱的分类方式很多,例如可以通过知识种类、构建方法等划分。从领域上来说,
知识图谱通常分为通用(领域无关)知识图谱和特定领域知识图谱:
通用知识图谱:通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科
知识库”,其中包含了大量的现实世界中的常识性知识,覆盖面极广。
特定领域知识图谱:领域知识图谱又叫行业知识图谱或垂直知识图谱,通常面向某
一特定领域,可看成是一个“基于语义技术的行业知识库”。
其他分类方式不再一一赘述。
1.2. 知识工程发展历程
回顾知识工程四十年多来发展历程,总结知识工程的演进过程和技术进展,可以将知识
工程分成五个标志性的阶段,前知识工程时期、专家系统时期、万维网 1.0 时期,群体智能
时期以及知识图谱时期,如图 1 所示。
图 1 知识工程发展历程
1950-1970 时期:图灵测试—知识工程诞生前期
人工智能旨在让机器能够像人一样解决复杂问题,图灵测试是评测智能的是手段。这一
阶段主要有两个方法:符号主义和连结主义。符号主义认为物理符号系统是智能行为的充要
条件,连结主义则认为大脑(神经元及其连接机制)是一切智能活动的基础。这一阶段具有
3
代表性的工作是通用问题求解程序(GPS):将问题进行形式化表达,通过搜索,从问题初
始状态,结合规则或表示得到目标状态。其中最成功应用是博弈论和机器定理证明等。这一
时期的知识表示方法主要有逻辑知识表示、产生式规则、语义网络等。这一时代人工智能和
知识工程的先驱 Minsky,Mccarthy 和 Newell 以 Simon 四位学者因为他们在感知机、人工智
能语言和通用问题求解和形式化语言方面的杰出工作分别获得了 1969 年、1971 年、1975 年
的图灵奖。
1970-1990 时期:专家系统—知识工程蓬勃发展期
通用问题求解强调利用人的求解问题的能力建立智能系统,而忽略了知识对智能的支持,
使人工智能难以在实际应用中发挥作用。70 年开始,人工智能开始转向建立基于知识的系
统,通过“知识库+推理机”实现机器智能,这一时期涌现出很多成功的限定领域专家系统,
如 MYCIN 医疗诊断专家系统、识别分子结构的 DENRAL 专家系统以及计算机故障诊断
XCON 专家系统等。斯坦福人工智能实验室的奠基人 Feigenbaum 教授在 1980 年的一个项
目报告《Knowledge Engineering:The Applied Side of Artificial Intelligence》中提出知识工程
的概念,从此确立了知识工程在人工智能中的核心地位。这一时期知识表示方法有新的演进,
包括框架和脚本等。80 年代后期出现了很多专家系统的开发平台,可以帮助将专家的领域
知识转变成计算机可以处理的知识。
1990-2000 时期:万维网
在 1990 年到 2000 年,出现了很多人工构建大规模知识库,包括广泛应用的英文 WordNet,
采用一阶谓词逻辑知识表示的 Cyc 常识知识库,以及中文的 HowNet。Web 1.0 万维网的产
生为人们提供了一个开放平台,使用 HTML 定义文本的内容,通过超链接把文本连接起来,
使得大众可以共享信息。W3C 提出的可扩展标记语言 XML,实现对互联网文档内容的结构
通过定义标签进行标记,为互联网环境下大规模知识表示和共享奠定了基础。这一时期在知
识表示研究中还提出了本体的知识表示方法。
2000-2006 时期:群体智能
在 2001 年,万维网发明人、2016 年图灵奖获得者 Tim Berners-Lee 在科学美国人杂志
中发表的论文《The Semantic Web》正式提出语义 Web 的概念,旨在对互联网内容进行结构
化语义表示,利用本体描述互联网内容的语义结构,通过对网页进行语义标识得到网页语义
信息,从而获得网页内容的语义信息,使人和机器能够更好地协同工作。W3C 进一步提出
万维网上语义标识语言 RDF(资源描述框架)和 OWL(万维网本体表述语言)等描述万维
网内容语义的知识描述规范。
万维网的出现使得知识从封闭知识走向开放知识,从集中构建知识成为分布群体智能知
识。原来专家系统是系统内部定义的知识,现在可以实现知识源之间相互链接,可以通过关
联来产生更多的知识而非完全由固定人生产。这个过程中出现了群体智能,最典型的代表就
4