logo资料库

知识图谱构建技术综述.pdf

第1页 / 共19页
第2页 / 共19页
第3页 / 共19页
第4页 / 共19页
第5页 / 共19页
第6页 / 共19页
第7页 / 共19页
第8页 / 共19页
资料共19页,剩余部分请下载后查看
计 算 机 研 究 与 发 展 Journal of Computer Research and Development  DOI:10.7544?issn1000-1239.2016.20148228 53(3):582-600,2016 知识图谱构建技术综述 峤 李 刘 刘   电子科技大学信息与软件工程学院 ( 杨 段 宏           瑶   成都 秦志光  610054)     (qliu@uestc.edu.cn) Knowledge Graph Construction Techniques Liu Qiao,Li Yang,Duan Hong,Liu Yao,and Qin Zhiguang (School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610054) Abstract Googles knowledge graph technology has drawn a lot of research attentions in recent years. However,due to the limited public disclosure of technical details,people find it difficult to understand the connotation and value of this technology.In this paper,we introduce the key techniques involved in the construction of knowledge graph in a bottom-up way,starting from a clearly defined concept and a technical architecture of the knowledge graph.Firstly,we describe in detail the definition and connotation of the knowledge graph,and then we propose the technical framework for knowledge graph construction,in which the construction process is divided into three levels according to the abstract level of the input knowledge materials,including the information extraction layer,the knowledge integration layer,and the knowledge processing layer,respectively.Secondly,the research status of the key technologies for each level are surveyed comprehensively and also investigated critically for the purposes of gradually revealing the mysteries of the knowledge graph technology,the state-of-the-art progress,and its relationship with related disciplines.Finally,five major research challenges in this area are summarized,and the corresponding key research issues are highlighted. Key words knowledge graph;semantic Web;information retrieval;semantic search engine;natural language processing     要 谷歌知识图谱技术近年来引起了广泛关注,由于公 开 披 露 的 技 术 资 料 较 少,使 人 一 时 难 以 看 清 摘 从知识图谱的定义和技术架构出发 ,对构建知识图谱涉及的关键技术进行了自底 该技术的内涵和价值 . .1)对知识图谱的定义和内涵进行了说明 ,并给出了构建 知 识 图 谱 的 技 术 框 架,按 照 输 向上的全面解析 入的知识素材的抽象程度将其划分为 个层次:信息抽取层、知识融合层和 知 识 加 工 层;2)分 别 对 每 个 层次涉及的关键技术的研究现状进行分类说明,逐步揭示知识图谱技术的奥秘,及其与相关学科领域的 关系;3)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结 关键词 知识图谱;语义网;信息检索;语义搜索引擎;自然语言处理 3 .   中图法分类号  TP18     收稿日期:2014-11-06;修回日期:2015-04-08 基金项目: 高技术研究发展计划基金 项 目 ” 科研基金项目 八六三 “ 国家 (MCM20121041) (2011AA010706); 国 家 自 然 科 学 基 金 项 目 (61133016,61272527); 教 育 部 中 国 移 动 - This work was supported by the National High Technology Research and Development Program of China (863 Program) (2011AA010706),the National Natural Science Foundation of China (61133016,61272527),and Ministry of Education- ChinaMoblie Communications Corporation Research Funds(MCM20121041).
刘   峤等 知识图谱构建技术综述 : 385 1 . , . 、 , 例 如 中 国 科 学 院 例如在业界 . 个大规模中英文跨语言知识图谱 搜狗知立方等 商 业 应 用 、 其知识库特 点 是 规 模 相 对 较 小 , (HowNet) 知 识 质 量 高 、 由 于 中 文 知 识 图 谱 的 构 建 对 中 近 出现了百度知 , 在 学 术 界 清 华 大 学 建 要采用人工编辑的 方 式 进 行 构 建 计算机语言信息中心董振东领导的知网 项目 但领域限定性较强 文信息处理和检索 具 有 重 要 的 研 究 和 应 用 价 值 年来吸引了大量的研究 心 成了第 中国 科 学 院 计 算 技 术 研 究 所 基 于 开 放 知 识 网 络 原型系 中国科学院数学 与 系 统 科 学 研 究 院 陆 汝 钤 院 士 、 上 海 交 通 大 学 构 建 复 旦 实验室 ⑤ 推出的中文知识图谱项目等 [2], 涵 盖 的 知 识 领 并且能为 用 户 提 供 一 定 的 智 能 搜 索 及 问 , (OpenKN) 统 提出知件 、 并发布了中文知识图谱研究平 台 大学 这些项目的特点是 知 识 库 规 模 较 大 域较广泛 答服务 zhishi.me④ 、 (Knowware) 知立方 、 事立方 、 人立方 “ XLore③ 、 的 概 念 建立了 GDM , ” , . 随 着 近 年 来 谷 歌 知 识 图 谱 相 关 产 品 的不 断 上 线 这一技术也引起了业界和学术界的广泛关注 它 , . 究竟是概念的炒作还是如谷歌所宣称的那样是下一 代 表 着 互 联 网 技 术 发 展 的 未 来 代搜索引擎的基石 方向?为了回答这 一 问 题 首 先 需 要 对 知 识 图 谱 技 术有完整深刻的理 解 本 文 的 目 的 就 是 从 知 识 图 谱 深 度 剖 析 知 识 图 谱 概 念 的 内 涵 和 的构建角度出发 , 帮助感兴 趣 的 读 者 全 面 了 解 和 认 识 该 技 发展历程 , 术 从而客观地做出判断 , , , . . 知识图谱的定义与架构 1  即 , . 这个定义显得过于简单 , 维基百科对知识图谱给出的词条解释仍然沿用 知识图谱是谷歌用于增强其搜索 : 然 而 从 业 界 的 发 展 动 态 来 月发布 7 搜索 引 擎 只 是 然 而 目 前 这 一 技 术 本 身 而不是追 , 折射出该领域背后的技术竞争 , 了谷歌的定义 引擎功能的辅助知 识 库 看 了自己的 Satori 产品的高级主管 表明微软已有类似 的 技 术 还存在许多问题 随谷歌 ⑥ . 微软希望取得领导地位 , 这一表态 微软在 . 必应 知识库之后 2013 (Bing) 发 布 公 开 表 示 Satori Weitz 年 , , , 信息 技 术 的 发 展 不 断 推 动 着 互 联 网 技 术 的 变 正 处 技术作 为 互 联 网 时 代 的 标 志 性 技 术 , ,Web    革 于这场技术变 革 的 核 心 到数据的链接 之 父 向 Web (semantic Web) 从 网 页 的 链 接 . (Web 1.0) 技 术 正 在 逐 步 朝 (linked data),Web Berners-Lee[1] 设 想 中 的 语 义 网 络 演变 . 的 解 释 , W3C 根据 而知识图谱 (Web of data), 语 义 网 络 是 一 张 数 据 构 成 语义网络技术向用户提供的是 其核心要义是以图形的方式向用户返 , 的网络 一个查询环境 回经过加工和推理的知识① . (knowledge 技术 则 是 实 现 智 能 化 语 义 检 索 的 基 础 和 桥 graph) 传统搜索引擎技 术 能 够 根 据 用户 查 询 快 速 排 序 梁 . 网页 这 种 网 页 检 索 效 率并不意 味 着 用 户 能 够 快 速 准 确 地 获 取 信 息 和 知 还需要进行人工 识 , 这 排查和筛选 , 种信息检索方式已经很难满足人们全面掌控信息资 源的需求 知识图谱 技 术 的 出 现 为解 决 信 息 检 索 问 , 题提供了新的思路 随着互联网信息总量的爆炸性增长 . 对于搜索引擎反馈的大量结果 , 提高信息检 索 的 效 率 , 然 而 . , 知识图谱的概念是由谷歌公司提出的 . , , 月 日 谷 歌 发 布 知 识 图 谱 项 目 17 公司 Metaweb 该项目始于 . 5 基础构建下一代智能化搜索引擎 年谷歌收购 语义搜索核心技术 的网页中抽取出实 体 及 其 属 性 信 息 关系 问答问题 2010 并籍此获得了该公司的 , 其 中 的 关 键 技术 包 括 从 互 联 网 以 及 实 体 间 的 这些技术特别 适 用 于 解 决 与实 体 相 关 的 智 能 . 由此创造出一种全新的信息检索模式 , , , 年 并 宣 布 以 此 为 .2012 虽然知识图谱的概念较新 新的研究领域 数据链接 关的技术标准如 早在 . 2006 年 (linked data) 的 思 想 , , . 但它并非是一个全 就提出了 呼 吁 推 广 和 完 善 相 ,Berners-Lee URI(uniform resource identifier), RDF(resource description framework),OWL(Web 为迎接语义网络时代的到来做 ontology language), 知识 随后掀起了一场语义网络研究热潮 好准备 ② . , 图谱技术正是建立 在 相 关 的 研 究 成 果 之 上 的 是 对 现有语义网络技术的一次扬弃和升华 , 我国对于中文知识图谱的研究已经起步 得了许多有价值的 研 究 成 果 . 并取 早 期 的 中 文 知 识 库 主 , .  ① http:??www.w3.org?standards?semanticweb?data  ② http:??www.w3.org?DesignIssues?LinkedData.html  ③ http:??xlore.org?index.action  ④ http:??zhishi.apexlab.org  ⑤ http:??gdm.fudan.edu.cn  ⑥ http:??en.wikipedia.org?wiki?Knowledge _ Graph
485 计算机研究与发展  2016,53(3) 十分激烈 业界对此的普遍重 视 库 产 品 和 相 关 应 用 从 当 前 披 露 出 来 的 商 业 产 品 , 表 . 1 其 中 , 也 能 看 出 给 出 了 当 前 主 流 的 知 识 包 含 实 体 数 最 多 的 是 万 亿 亿 条 实 亿 个 实 体 和 , 实 体 总 数 已 超 过 , 知 识 库 , 5 10 350 微软的 . .Apple Siri,Google Now 而且规模在不断地增加 , , 谷歌的知识图谱 拥 有 . WolframAlpha 条 体间的关系 包含的概念总量达 到 千 万 级 最多的知识库 的智能助理应用正是分别建立在 识库和谷歌的知识图谱基础之上 内也涌现出一些知 识 图 谱 产 品 和 应 用 立方 网三元组推理补充 实 体 数 据 理解以及句法分析等 [3]. 侧重于图的逻辑推理计算 , Probase 是 当 前 包 含 概 念 数 量 等当前流行 知 国 : 如 搜 狗 的 知 能够利用基于语义 , 对 用 户 查 询 进 行 语 义 WolframAlpha 值得注意的是 . , , Table 1 Knowledge Graph and Similar Products 表 1  知识图谱及相关类似产品 Knowledge Base  Products  Data Source Knowledge Google Seach Engine Wikipedia,Freebase, Vault Google Now Web Open Data Wolfram Alpha  Apple Siri  Mathematica Satori?Probase Bing Seach Engine Microsoft Cortana Wikipedia, Web Open Data Watson KB IBM Watson System Web Dictionaries The World Book Encyclopedia DBpedia KB  DBpedia  YAGO KB  YAGO  Wikipedia Wikipedia NELL KB  NELL  Web Open Data Facebook KB  Shopycat Zhilifang KB Sougou Seach Engine Social Network Data Web Open Data Zhixin KB Baidu Zhixin User Generated Platform Content Cross-Lingual KB  XLORE Chinese?English Encyclopedia, Wikipedia Zhishi.me KB  Zhishi.me  Chinese Encyclopedia , 1 从表 可以看出 Facebook,Apple,IBM 除传统搜索服务提供商之外 ,    包括 等互联网领军企业也加 入了竞争 其应用也 , 因此 知 识 图 谱 的 概念 目 前 仍 处 在 发 处于探索阶段 , 展变化的过程中 通 过 对 现 有 的 研究 成 果 进 行 比 较 , 和提炼 由于相关技术和标准尚未成熟 . 本文提出知识图谱的定义 , . 1.1  知识图谱的定义 知识图谱 定义 . 1. 是 结 构 化 的 语 义 知 识 库 用 , 于以符号 形 式 描 述 物 理 世 界中 的 概 念 及 其 相 互 关 系 以 关系 , - 及实体及其相关属性 实体间通过关系相互联 , 结 其基本组成单位是 . “ 值对 - 实体 - 三元组 实体 ” 构成网状的知识结构 , 通过知识图谱 . 可以实现 , Web 支持用户按主题而不是字符串检索 , 基于知识图谱的搜索引擎 . 念链接转变 而真正实现语义检索 够以图形方式向用 户 反 馈 结 构 化 的 知 识 浏览大量网页 就可以准确定位和深度获取知识 , 包含 层含义 定义 , 从网页链接向概 从 , 能 , 用 户 不 必 . 1 3 : 1) 知识图谱 本 身 是 一 个 具 有 属 性 的 实 体 通 过 知识 , 其 中 的 节 点 表 示 物 而 实 体 间 的 各 种 语 义 关 系 知识图谱是对物理世界的 , 关系链接而成的网状知识库 从图的角度来看 . 图谱在本质上是一 种 概 念 网 络 理世界的实体 则构成网络中的边 一种符号表达 或概念 ( 由此 . ), , . 知识图谱的研究价值在于 2) 基础之上的一层覆盖 网 络 它是构建在当前 , 能够在 , (overlay network), Web 借助知识图谱 网页之上建立概念间的 从而以最 小 的 代 价 将 互 联 网 中 积 累 的 信 链接关系 , 息组织起来 成为可以被利用的知识 , Web . 3) 知识图谱的应用价值在于 一方面通过推理实现概念检索 , 它能够改变现有 , 相 的信息检索方式 ( 另一方面以 对于现有的字符串模糊匹配方式而言 图形化方 式 向 用 户 展 示 经 过分 类 整 理 的 结 构 化 知 从而使人们从人 工 过 滤 网 页 寻 找 答 案 的 模 式 中 识 , 解脱出来 ); . 1.2  知识图谱的架构 知识图谱的架构 , 包括知识图谱自身的逻辑结 后 体 系 架 构 ( ) , 构以及构建知识图谱所 采 用 的 技 术 者是本文讨论的重点 . , , 个层次 例如谷歌的 . 首先介绍知识图谱的逻辑结构 数据层和模式层 : 2 知 识 以 事 实 从逻辑上将知 识图谱划分为 在知识图 . 谱的数据层 为 单 位 存 储 在 图 数 都是典 据库 实 型 的 图 数 据 库 体 则 , 存储在图数据库中的所有数据将构成庞大的实体关 系网络 或 者 . 三元组作为事实的基本表达方式 (fact) 和微软的 关 系 实 体 - Trinity 实 体 ” - Graphd “ 性值 - 属性 - 如 果 以 “ ” 形成知识的 , 图谱 “ 模式层在数据层之上 ”. 是知识图谱的核心 , 在模 . 通 常 采 用 本 体 库 来 规则和 、 , 借助本体库对公理 , 式层存储的是经过 提 炼 的 知 识 管理知识图谱的模式层
刘   峤等 知识图谱构建技术综述 : 585 约束条件的支持能 力 来 规 范 实 体 类型和属性等对象 之 间 的 联 系 中的地位相当于知 识 库 的 模 具 库冗余知识较少 . , . 关 系 以 及 实 体 的 、 本 体 库 在 知 识 图 谱 拥 有 本 体 库 的 知 识 接下来从知识图谱构建的角度 介绍知识图谱 给 出 了 知 识 图 谱 技 术 的 整 体 其中虚线框内的部分为知识图谱的构建过程 , 的一般技术架构 架构 图 . , 1 , , 1 所示 同时也是知识图谱更新的过程 如图 . 谱的构建过程是从 原 始 数 据 出 发 或半自动的技术手 段 素 的过程 逻辑 合以及知识加工 知识图 , 采 用 一 系 列 自 动 从 原 始 数 据 中 提 取 出 知 识 要 并将其存 入 知 识 库 的 数 据 层 和 模 式 层 根据知识获取的 , 信 息 抽 取 知 识 融 这是一个迭代更新的过程 . 每一轮迭代包 含 , 即事实 ( 个 阶 段 ), , 3 : 、 . Fig.1 Technical architecture of knowledge graph. 图 知识图谱的技术架构 1  2 从高质量数据中提取本体和模式信息 , 知识图 谱 有 自 顶 向 下 和 自 底 向 上 种 构 建 方 所谓自顶向下构 建 是 指 借 助 百科 类 网 站 等 结 构 . 加 , 则是借助一定的 , 选 , 加入 ,    式 化数据源 入到知识库中 技术手段 择其中置信度较高的新模式 到知识库中 从公开采集的数据中提取出资源模式 , 所谓自底向上构建 ; 经人工审核之后 , . , ,Freebase 在知识图谱技术发展初期 多数参与企业和科 研机构都是采用自 顶 向 下 的 方 式 构 建 基 础 知 识 库 , 例如 项目就是采用维基百科作为主要 数 据来源 随着自动知识抽取与加工技术的不断成熟 , . 目前的知识图谱大 多 采 用 自 底 向 上 的 方 式 构 建 其 中最具影响力的例子包括谷歌的 和微软的 Satori 页数据为数据源 丰富和完善现有的知识库 Knowledge Vault 都 是 以 公 开 采 集 的 海 量 网 知识 库 通过自动抽取资源的方式来构建 , , , 、 . , 本文主要介绍自底向上的知识图谱构建 信 息 抽 因此 按照知 识 获 取 的 过 程 分 为 , 知识融合以及知识加工 、 个 层 次 3 : 技术 取 . 知识图谱的构建技术 2  3 , , 如 )、 1.2 ;2) :1) 节所述 概念 ( 信息抽取 属性以及实体间的相互关系 采用自底向上的方式构建知识 每 一 轮 更 新 包 即从各种类型的数据源中 , 在 , 在获 知识融合 , 以消除矛盾和歧 , 某个特定称谓也 , 对于经过 , 部分需要人 ( 需要对其进行整合 , 比如某些实体可能有多种表达 , 图谱的过程是一个 迭 代 更 新 的 过 程 括 个步骤 提取出实体 此基础上形成本体化的知识表达 得新知识之后 义 许对应于多个不同的实体等 融合的新知识 工参与甄别 以确保知识库的质量 拓展现有知识 推理 、 信息抽取 信息抽取 步 新增数据之后 . 得到新知识 、 构建的第 源中自动抽取信息 得 到 候 选 知 识 单 元 是 知 识 图 谱 (information extraction) 其中 的 关 键 问 题 是 如 何 从 异 构 数 据 , 信 息 抽 取 是 需要经过质量评估之后 , 才能 将 合 格 的 部 分 加 入 到 知 识库 中 , 可以进行知识 , 知识加工 ;3) ), . 1 2.1  .
685 计算机研究与发展  2016,53(3) 一种自动 化 地 从 半 结 构 化 和 无 结 构 数 据 中 抽 取 实 涉及 体 的关键技术包括 实体抽取 : 实体抽取 关系以及实体属性等结构化信息的技术 [4]. 、 关系抽取和属性抽取 、 . 2.1.1  实体抽取 也 称 为 命 名 实 体识 别 , (named entity 是指从文本数据集中自动识别 对 因 此 是 信 息 准 确 率 和 召 回 率 recognition,NER), 出命名实体 后续的知识获取效 率 和 质 量 影 响 极 大 抽取中最为基础和关键的部分 实体抽取的 质 量 . ( ) , . 年 ), 随 后 然而 . 难以 适 应 数 据 的变 化 , 早期对实体抽取方法的研究主要面向单一领域 如特定行业或特定业 务 关 注 如 何 识 别 出 文 本 中 ( 地名等专有 名 词 和 有 意 义的 时 间 等 实 体 信 的人名 、 息[5].1991 ,Rau[6]采用启发式算法与人工编写规 首 次 实 现 了 从 文本 中 自 动 抽 取 公 则相结合的方法 , 基于规则的方法 司名称的实体抽取原型系统 , 而且可 具有明显的局限性 , 人 们 开 始 扩展性较差 尝试采用统计机器学习方法辅助解决命名实体抽取 问题 不仅需要耗费大量人力 , . 单纯基于有监督学习的实体抽取方法 , 最 近 邻 ,Liu 算 法 和 条 件 随 机 场 模 型 文 本 数 据 中 包 含 实 体 的 识 别 Twitter 止 和召回率上的表现 都 不 够 理 想 于训练样本的规模 先验知识 最近有学者采用有监督学习与规则 ( 取得了一些积极的研究成果 例如 合的方法 , , 人[8]采 用 字 典 辅 助 下 的 最 大 熵 算 法 (K-Nearest 实 现 了 对 , 然 而 迄 今 为 在准确率 , 且 算 法 的 性 能 依 赖 对此类方法的发展形成了制约 , . 相结 ) 等 在 基 于 数 据 集 上 取 得 了 实 体 Neighbors) 等 人[7]利 用 论文摘要 的 例 如 Lin K- . , , , , Medline GENIA 抽取准确率和召回率均超过 的实验结果 , , . , , 70% (open domain) 的信息抽取问题 随着命名实体识别技术不断取得进展 研究和解决全 网 信 息 抽 取问 题 , 开始关注开放域 不再限定于特定的 知 识 领 域 网 为 此 建立一个科学完整 的 命 名 实 体 分 类 体 系 于指导算法研究 数据进行管理 ,Sekine 了一个层次结构的 命 名 实 体 分 类 体 系 有的命名实体划 分 为 学术界对建立命名 实 体 分 类 体 系 的 重 视 的命名实体 识 别 研 究 产 生 了 深 远 的 影 响 . 学术界 即 , 而 是 面 向 开 放 的 互 联 需 要 首 先 一 方 面 用 另 一 方 面 便 于 对抽 取 得 到 的 实 体 ; 等 人[9]就 提 出 早 在 将 网 络 中 所 该 项 成 果 引 起 了 并 对 后 续 年 , 归 纳 并 基 于 条 件 随机 场 模 型 进 行 实 最后采 用 自 适 应 感 知机 算 法 实 现 了 对 , 等人[10]借 鉴 种实体类别 Ling 出 体边界识别 的 实 体 分 类 方 法 Freebase 个 分 类 .2012 2002 112 150 年 . , . , , , 实体的 自 动 分 类 其 实 验 结 果 显 著 优 于 , Stanford NER , 采用 统 计 机 器 学 习 的 方 法 , 等当前主流的命名实体识别系统 然而 . 互联网中的内容是动态变化的 ,Web 2.0 , 采 用 人 工 技术更进一步推动 了 互 联 网 的 概 念 创 新 , 预定义实体分类体系的方式已经很难适应时代的需 面向开放域的实 体 抽 取 和 分 类 技 术 能 够 较 好 地 求 . 解决这一问题 该方 法 的 基 本 思 想 是 对 于 任 意 给 定 , 的实体 从 目 标 数 据 集 中抽取出与之具有相似上 通常是网页等文本数据 ( ) 从而实现实体的分类和聚类 [11]. 下文特征的实体 , 不需 为每个领域或每个实体类别建立单独 要 ) 该领域面临的主要挑战 的语料库作为训练集 , 是如何从给定的少量实体实例中自动发现具有区分 等 人[12]提 出 了 一 力的模式 基 本 思 路 是 根 种迭代扩展实体语 料 库 的 解 决 方 案 , 利 用 该 模 型 对 处 据已知的实体实例 进 行 特 征 建 模 理海量数据集得到 新 的 命 名 实 体 列 表 然 后 针 对 新 迭代地生成实体标注语料库 实体建模 , 在面向开放域的实体识别和分类研究中 也不可能 ( 针对 该 问 题 . ,Whitelaw 因此 . , , , . 例如 . 另一种思路是通过搜索引擎的服务器日志获取 等人[13]提出了一种面 即 事 先 并 不 给 出 实 体 而是基于实体 的 语 义 特 征 从 搜 索 日 志 中 识 别 , 然后采 用 聚 类 算 法 对 识 别 出 的 实 体 对 , 该方法 已 经 在 搜 索 引 擎 技 术 中 得 到 应 , 新出现的命名实体 Jain 向开放域的无监督 学 习 算 法 分类 出命名实体 象进行聚类 用 用于根据用户输入的关键字自动补全信息 , , . 关系抽取 2.1.2  文本语料经过实体抽取 , 的命名实体 为了得到语义信息 , 中提取出实体之间的关联关系 念 系抽取技术的目的 取实体间的关系这一基本问题 得到的是一系列离散 还需要从相关语料 , 概 通过关系将实体 ( , 研 究 关 就 是 解 决 如 何 从 文 本 语 料 中 抽 才能 够 形 成 网 状 的 知 识 结 构 , 联系起来 ) . , . 2 :1) 点明显的不足 早期的关系抽取研究方法主要是通过人工构造 据 此 采 用 模 式 匹 配 的 方 法 来 识 别 , 要求 这种方法有 . 并 且 对 特 定 难 规则制定工作量大 , 且 难 以 拓 展 到 其 他 领 通 , 替 代 预 定 义 的 语 等人[14]利用自然语 语法和语义规则 实体间的关系 制定规则的人具有 良 好 的 语 言 学 造 诣 领域有深入的理解和认知 以适应丰富的语言 表 达 风 格 域 过对实体间关系的 模 式 进 行 建 模 法和语义规则 言中的词法 例如 . 句法以及语义特征进行实体关系建模 、 为此学术界开始尝试采用统计机器学习方法 . Kambhatla ;2) , , , ,
刘   峤等 知识图谱构建技术综述 : 785 . OILLIE 召回率 . , . 通过最大熵方法成功地实现了不借助规则硬编码的 实体关系抽取 , , , , ACE 随后 88%. 例如 . (HowNet) 准 确 率 达 到 了 在 开 放 数 据 集 上 对 关系抽取的准确性也不断提高 , 类实体 关 系 进 行 抽 取 6 有监督学 习 方 法 也 存 在 明 显 不 足 , 监督学习方法 刘克彬等人[15]借助知网 库构造语义 核 函 数 的 而 法的有效性 因此 的学习方式 出现了大量基于特征向量或核函数的有 例如 . 提供的本体知识 定 义 然 为 了 确 保 算 需要人工标注大量的语料作为训练集 , 近年来的研究 重 点 逐 渐 转 向半 监 督 和 无 监 督 , 等人[16]提出了一种基于 能够自动进行实 , 陈立玮等人[17]针对弱监督学习中标注 . 算法设 通过向传统模型 , 特征进 行 协 同 训 练 实 现 了 对 弱 监 在 中 文 和 英 文 数 据 集 上 关 等人[18]采 用 基 于 .Zhang 在 公 开 语 料 库 上 获 得 了 较 位置关系 、 Bootstrap 体关系建模 数据不完全可靠的问题 计思想 中引入 督关系抽取模型的 强 化 , 系抽取性能均得到了提升 实例的无监督学习 方 法 好的实验结果 能够对实体间的雇佣关系 , 以及生产关系等多元关系进行精准识别 提出了一种协同训练方法 , 算法的半监督学习方法 Bootstrapping ,Carlson 基于 , N-Gram , , . , . 年 Banko ,2007 如雇佣关系 , 然而在实际应用中 . 以上研究成果的共同特点是需要预先定义实体 整体部分关系以及位置关系 、 要想定义出一个完美的实体 , 为 了 解 决 这 一 制 约 关 华 等人[19]提出了面向开放 关系类型 等 关系分类系统是十 分 困 难 的 系抽取技术 走 向 实 际 应 用 的 关 键 问 题 盛顿大学图灵中心的 域的信息抽取方法框架 实 体 - 并 发 布 了 基 于 自 监 督 (self-supervised) (TextRunner). (open information extraction, 学 习 该系 据 此 得 到 一 再 依 据 该 模 型 对 开 放 数 据 进 依据分类结 果 训 练 朴 素 贝叶 斯 模 型 来 识 别 , 关系 经 过 大 规 模 真 实 数 据 测 - OIE), 方式的开放信息抽取原型系统 统采用少量人工标 记 数 据 作 为 训 练 集 个实体关系分类模 型 行分类 实体 “ 试 取得了显著优于同时期其他方法的结果 , 面向开放域的关系抽取技术直接利用语料中的 因 此 不 需 要 预 先 指 关系词汇对实体关 系 进 行 建 模 定关系的分类 等 发布了面向开放域信息抽取 人[20]在 , 该 系 统 能 够 利 用 维 基 百 科 网 页 信 息 的 , 框 自动构造实体关系训 练集 这项工作 , 也为批量构造高质 量 的 训 练 语 料 提 供 了 新 的 思 路 性能优于早期的 , 这 是 一 个 很 大 的 进 步 , 的基础上 提供的属性信息 TextRunner (infobox) OIE 系统 三 元 组 ,Wu WOE 例 如 系统 , , ” , , , , . . , WOE TextRunner 等人[21]通 过 对 据此引入语法限制条件和字典约束 , 系 系 统 和 Fader 发 现 其 中 错 误 的 统的实体关系抽取 结 果 进 行 分 析 部分主要是一些无意义或不合逻辑的实体关系三元 组 采用先识别 , 关系指示词 有效提 , 等 人[22]针 对 上 述 系 高了关系识别准 确 率 统均无法识别非动 词 性 关 系 的 局 限 通 过 引 入 上 下 提出了一个 支 持 非 动 词 性 关 系 抽 取 的 文分析技术 , 系统 有效提高了自动关系抽取的准确率和 , 然后再对实体进行识别的策略 , .Mausam , (H- 而且 由于当前的面向开放域的关系抽取方法在准确 率和召回率等综合性能指标方面与面向封闭领域的 因 此 有 部 分 学 者 开 传统方法相比仍有 一 定 的 差 距 , 始尝试将两者的优势结合起来 等人[23] 例如 . 提出了 一 种 基 于 条 件 随 机 场 的 关 系 抽 取 模 型 Banko , 当目标数据集中拥有的关系数量不大 CRF), 有预先定义好的实 体 关 系 分 类 模 型 可 用 的 情况 下 , 采用传统的机器学 习 算 法 进 行 关 系 抽 取 而 对 于 没 有预先定义好的实体关系模型或者关系数量过多的 微软公司人立方 情况 . 模 型 也 是 基 于 这 种 策 项目 所 采 用 的 StatSnowball 略实现其关系抽取功能 [24]. 则采用开放域关系抽取方法 , , 当前 流 行 的 系 统 在 关 系 抽 取 方 面 存 在 , . , ) OIE ;2) 的 抽 取 准 确 率 和 召 回 率 学 术 界 有 着 清 醒 的 认 识 .1) 三元组模式 ( 2 当前研 究 的 重 点 是 如 何 提 高 二 元 实 个主要问题 体间关系 很 , 少考虑到在现实生活中普遍存在的高阶多元实体关 所采用的研究方 法 大 多 只 关 注 发 掘 词 汇 或 词 系 而 无 法 实 现 对 隐 含 语 义 关 系 的 组之间的关系模式 抽取 对 此 等 人[25]采用 提 系 统 对 多 出了 元 实 体 关 系 的 识 别 能 力 在 隐 含 关 系 识 别 方 面 , 提 高 McCallum[26]提出 采 用 后 期 关 系 推 理 的 方 法 这 些 工 作 都 OIE 是该领域值得重视的研究动向 关系抽 取研究领域 还需要一段时间的积累 系统对隐含实 体 关 系 的 发 现 能 力 然而在 , 要实现算法性能由量变到质变的飞跃 , Alan 系 统 进 行 改 进 能够有效提高 , 元 关 系 模 型 对 KRAKEN 例 如 模型 OIE OIE OIE N , , . , . , . 属性抽取 2.1.3  例如针对某个公众人物 . 属性抽取的目标是从不同信息源中采集特定实 可以从网络 体的属性信息 , 公开信息中得到 其 昵 称 教 育 背 景 等 信 息 属性抽取技术能 够 从 多 种 数 据 来 源 中 汇 集 这 些 . 信息 实现对实体属性的完整勾画 , 生 日 国 籍 、 、 、 .
885 由于可以将实体的属性视为实体与属性值之间 因 此 也 可 以 将属 性 抽 取 问 题 视 , 例如郭剑毅等人[27]将人物属性抽 . 采 用 支 持 向 量 机 的一种名词性关系 为关系抽取问题 取问题转化为实体 关 系 抽 取 问 题 算法实现了人物属性抽取与关系预测模型 , . , . 和 例 如 WordNet Suchanek Wikipedia 能够从 , (YAGO), 百科类网站提供的半结构化数据是当前实体属 性抽 取 研 究 的 主 要 数 据 来 源 等 人[28]设计了基 于 规 则 和 启 发 式 算 法的 属 性 抽 取 算 法 网页 信 息 框 中 自 据 此 得 到 了 扩 展 性 良 动提取属性名和属 性 值 信 息 好的 本 体 知 识 库 其 抽 取 准 确 率 高 达 项 目 的 启 发 和 受 ,DBpedia 95%. 从 维 基 百 科 网 页 信 项目以维基百科作 为 研 究 对 象 亿 条 实 息框中抽取了超过 体关系 信 息 项 目 的 重 要 组 成 部 作 为 . 构建了一个维基百科之上的知识网络 分 , 反过来促进了维基百科的应用创新 多 、 也 因 此 成 为 了 目 前 世 界 上 最 维度搜索等 庞大的多领域本体知识库之一 [29]. 如关系查询 , 万 个 实 体 和 超 过 Linked Data ,DBpedia ,DBpedia Freebase YAGO 458 30 , . , 尽 管 可 以 从 百 科 类 网 站 获 取 大 量 实 体 属 性 数 还有大量的实 然而这只是人类知识的冰山一角 据 , , 如 何 从 体属性数据隐藏在 非 结 构 化 的 公 开 数 据 中 海量非结构化数据中抽取实体属性是值得关注的理 一种解 决 方 案 是 基 于百 科 类 网 站 的 半 论研究问题 . 通过自动抽取生成训练语料 用于训练 结构化数据 , , 然 后 将 其 应 用于 对 非 结 构 化 数 实体属性标注模型 另一种方案是采用数据挖掘 据的实体属性抽取 [30]; 的方法直接从文本中挖掘实体属性与属性值之间的 据此实现 对 属 性 名 和 属性 值 在 文 本 中 的 关系模式 , 这种方法的基 本 假 设 是 属 性名 和 属 性 值 之 间 定位 . 有位置上的关联关系 许 , 多实体属性值附近都存在一些用于限制和界定该属 在 自 然 语 言 处 理 技 术 属 性 名 性值含义的关键词 因 此 可 以 利 用 这 些 关 中将这类属性称为 有 名 属 性 键字来定位有名属性的属性值 [31]. 2.2  事实上在真实语言环境中 , ), , ( 知识融合 通过信息抽取 , 关系以及实体属性信息的目标 、 这些结果中可能包含大量的冗余和错误信息 , 实现了从非结构化和半结构化 然 , 数 , 缺乏层次性和逻辑性 , 知 识 融 合 包 括 数据中获取实体 而 据之间的关系也是扁平化的 因此 有 必 要 对 其 进 行 清 理 和整 合 部分内容 以消除概念的歧义 知识的质量 实体链 接 和 知 识 合 并 : 2 可 从而确保 , 剔除冗余和错误概念 , . 通 过 知 识 融 合 . , , . 计算机研究与发展  2016,53(3) 实体链接 (entity linking) 是指对于从文本中抽 将 其 链 接 到 知 识 库 中 对 应 的 正 2.2.1  实体链接 取得到的实体对象 确实体对象的操作 [32]. , . 实体链接的基本思想是首先根据给定的实体指 然后通过 从知识库中选出一组候选实体对象 称项 , , 相似度计算将指称 项 链 接 到 正 确 的 实 体 对 象 早 期 的实体链接研究仅关注如何将从文本中抽取到的实 忽 视 了 位 于 同 一 文 档 的 实 体 间 体链接到知识库中 , 存在的语义联系 近 年 来 学 术 界 开 始 关 注 利 用 实 体 , 同时将多个实体链接到知识库中 的共现关系 称为 , , 例 如 集成实体链接 (collective entity linking). 等人[33]提出的基于图的集成实体链接方法 效提高实体链接的准确性 Han 能够有 , . 实体链接的一般 流 程 是 ;2) :1) 从 文 本 中 通 过 实 体 进行实体消歧和共指消解 抽取得到实体指称项 判断知识库中的同名实体与之是否代表不同的含义 以及知识库中是否存在其他命名实体与之表示相同 在确认知识 库 中 对 应 的 正 确 实 体 对 象 之 的含义 后 将该实体指称项链接到知识库中对应实体 , ;3) . , 实体消歧 1) 实体消 歧 . (entity disambiguation) 是 专 门 用 于 在 实 际 语 言 环 经常会遇到某 个 实 体 指 称 项 对 应 于 多 个 命 名 , 可 也 可 以 对 应 于 就 , 实体消歧 . 解决同名实体产生 歧 义 问 题 的 技 术 境中 实体对象的问题 以对应于作为歌手 的 李 娜 这 个 实 体 作为网球运动员的李娜这个实体 可以根据当前的语境 主要采用聚类法 准确建立实体链接 , 通过实体消歧 , 这 个 名 词 例如 , 指 称 项 李娜 “ ” ( ) , 聚类法是指以实体对象为聚类中心 将所有指 向同一目标实体对象的指称项聚集到以该对象为中 聚类法 消 歧 的 关 键 问 题 是 如 何 定 义 实 心的类别下 . 体对象与指称项之间的相似度 种 , . 空间向量模型 ① 常用方法有 , 词袋模型 ( ). 4 . 典型的方法是取 然 将 该 指 称 项 聚 , 当前语料中实体指 称 项 周 边 的 词 构 成 特 征 向 量 后利用向量的余弦 相 似 度 进 行 比 较 , 类到 与 之 最 相 近 的 实体 指 称 项 集 合 中 等人[34]采用该方法 例 如 在 , 数据集上取得了很高的消歧精度 Bagga MUC6(Message Understanding 值 然 而 该 方 法 的 缺 点 在 于 没 有考 虑 上 这种 信 息 损 失 会 导 致 在 某 些 情 况 下 , 如短文本分析 , 语义模型 该 模 型 与 空 间 向 量模 型 类 似 (F 区 84.6%). Conference) 高达 下文语义信息 算法性能恶化 . . ② . ,
刘   峤等 知识图谱构建技术综述 : 985 权重 用于表示该实体出现的频率或先验概率 , 例如 . 等人[41]通过统计维基百科中的实体出现的 等 知 据此实现了一个 , 为 解 决 人 物 实 体 的 重 要 性 Ratinov 频 率 以 此 作 为 实 体推 荐 时 排 序 的 依 据 人[42]则借助搜 索 引 擎 的 关 键 词 日 志 和 识库 本体搜索引擎原型 系 统 , 评估提供了一种新的思路 构建了一个知名人物本体库 , DBpedia .Ochs . 共指消解 2) 共指消 解 . , 别在于特征向量的 构 造 方 法 不 同 向量不仅包含词袋向量 例如 向量空间进行分解 以此与词袋模型相 结 合 计算结果 语 义 模 型 的 特 征 而且包含一部分语义特征 , . 等人[35]采 用 奇 异 值 分 解 技 术 对 文 本 得到给定维度的浅层语义特征 , , 能 够 得 到 更 精 确 的 相 似 度 Pedersen , . , ( , , , , ), Malin 社会网络模型 ④ 指称项 ( ③ 人以群分 、 在社 会 化 语 境 中 , 分配一个 单 独 页 面 ) 该模型的基本假设是物以类 . 实 体 指 称 项 的 意 义 建 . 首先利用实体 间 的 关 系 将 与之 相 关 的 指 称 项 , 然 后 利 用 社 会网 络 分 析 技 术 计 网 络 中 的 节 点 即 以 此 来 判 定 指 称 项 之 间 的 相 似 度 . 等人[36]利 用 随 机 漫 步 模 型 对 演 员 合 作 得 到 了 比 基 于 文 本 相 似 度 聚 在很大程度上是由 与 其 相 关 联 的 实 体 所 决 定 的 模时 链接起来构成网络 算该网络中节点之间的 拓 扑 距 离 实体的指称项 例如 网络数据进行实体 消 歧 模型更好的消歧效果 百科知识模型 百科类网站通常会为每个实 . 其 中 包 括 指 向 其 他 百 科 知 识 模 型正 是 利 用 这 种 链 体 实体页面的超链接 接关系来计算实体指称项之间的相 似 度 Han 等人[37]利用维 基 百 科 条 目 之 间 的 关联 关 系 计 算 实 实 验 结 果 表 明 这 种 方 式 能 体指称项之间的相 似 度 够有效消除同名实体间的歧义 等 人[38]以 基 于 实 体 所 在 页 面 的 上 下 文 维基百科作为知识 库 利 用 词 袋 模 信息和指称项所在 语 料 的 上 下 文 信 息 型构造特征向量作为实体链接时进行相似度比较的 ,Sen[39]进 一 步 在 此 基 础 上 依据 采用主题模型作为 相 似 度 计 算 依 据 在 维 基 百 科 人 , 物数据集 上 获 得 了 高 达 等人[40]提出的 似性和主题一致性 库 于百科类知识库中 的 实 体 数 非 常 有 限 推广性较差 .Shen 模型则同时考虑到了文本相 知识 由 此 类 方 法 的 取得了当前最 好 的 实 体 消歧 实 验 结 果 , 实现了 实 体 消 歧 , 基于维基百科和 , Wordnet 然 而 的 消 歧 准 确 率 .Bunescu Linden 例 如 86% . , , , . . , , . . 为了充分利用海量公开数据中包含的实体区分 等人[32]基于生成模型提出了一种增量证 数 据 集 上 实 现 了 实 体 消 歧 该 方 法 降 低 了消 歧 算 法 对 于 知 Twitter , 性证据 ,Li 据挖掘算法 准确率的大幅提升 识库的依赖 在 提供了一种很有希望的算法新思路 , . 实体消歧技术能够帮助搜索引擎更好地理解用 提 , 其 中 还 有 一 个 很重 要 的 问 题 是 如 . 以 确 定 推 荐 当前 的 主 要 研 究 思路 是 为 实 体 赋 予 . 从而给出更好的上下文推荐结果 户的搜索意图 , 高搜索服务质量 何对存在歧义的实 体 进 行 重 要 性 评 估 内容的优先级 , 技 术 主 要 用 于 解 例 如 在 (entity resolution) . 决多个指称项对应 于 同 一 实 体 对 象 的 问 题 一篇新闻稿中 等 “he”,“him” 其中的许 多 代 词 如 , ,“Barack Obama”,“president Obama”, 等指称项可能指向的 是 同 一 实 体 对 也 可 能 指 向 可以将这些指称项 , 由 于 该 问 题 在 信 息 吸 因 此 学 术 界 对 该 问 题 有 多 种 “the president” 象 该实体对象 合并 关联 ( 检索和自然语言处 理 等 领 域 具 有 特 殊 的 重 要 性 引了大量的研究努 力 不 同 的 表 述 利用共指消解技术 . 到正确的 实 体 对 象 ) 典 型 的 包 括 对 象 对 齐 , , . , : (object 以及实体同 (entity matching) , 实体匹配 alignment)、 义 (entity synonyms). . , , ), Hobbs 朴素 ( 早 期 的 算法 将表达 模 式 : 代表性方法是 , (centering theory).Hobbs 共指消解问题的早期研究成果主要来自自然语 近年来 统 计 机 器 学 习 领 域 的 学 者 越 来 , 基 于 自 然 语 言 处 理 的 共 言处理领域 越多地参与到这项 工 作 中 . 指消解是以句法分析为基础的 Hobbs 算法和向心理 论 算 法 是 主 要 思 路 是 基 于 句 法 分 最早的代词消解算 法 之 一 因此 适 用 于 实 体 与 代 词 出 现 在 同 一 析树进行搜索 , 有 一 定 的 局 限 性 算 句子 中 的 场 景 Hobbs 法完全基于句法分析 后来则加 向心理论的基本思想 入了语义分析并沿用至今 [43]. 是 的 基本组成单元 可以获 , 得当前和后续语篇中的 关 注 中 心 根 据 语 义 的局部连贯性和显 著 性 就 可 以 在 语 篇 中 跟 踪 受 关 注的实体[44]. 向心理论的提出最初并不是为了解决 代词消解问题 而是 为 了 对 语 篇 中 关 注 中 心 的 局 部 , 因 此 它 虽 然 一 段 时 间 内 成 为 主 要 连贯性进行建模 , 的代词消解 手 段 但 却 不 是 最 佳 的 理 论 模 型 近 年 利用词性 来 , 提 高 实 体 消 解 方 法 的 适 用 范 标注和语法分析技 术 围和准 确 性 等 人[45]基 于 句 法 分 析 和 词法分析技术提出 了 消 解 算 法 能 够 识 别 语 篇 中 的 人称代词和反身代词等回指性代词在语篇中回 第 (utterance) 通过识别表达模式中的实体 , 学术界开始尝试在向心理论的基础上 , (discourse) 视 为 语 篇 Lappin 例 如 实 体 ), ( , , . , . , 3
分享到:
收藏