知识图谱构建技术综述.pdf-资料库

计算机研究与发展Ｊｏｕｒｎａｌ　ｏｆ　Ｃｏｍｐｕｔｅｒ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　ＤＯＩ：１０．７５４４?ｉｓｓｎ１０００－１２３９．２０１６．２０１４８２２８５３（３）：５８２－６００，２０１６知识图谱构建技术综述峤李刘刘　电子科技大学信息与软件工程学院（杨段宏　　　　　瑶　成都秦志光　６１００５４）　　（ｑｌｉｕ＠ｕｅｓｔｃ．ｅｄｕ．ｃｎ）Ｋｎｏｗｌｅｄｇｅ　Ｇｒａｐｈ　Ｃｏｎｓｔｒｕｃｔｉｏｎ　ＴｅｃｈｎｉｑｕｅｓＬｉｕ　Ｑｉａｏ，Ｌｉ　Ｙａｎｇ，Ｄｕａｎ　Ｈｏｎｇ，Ｌｉｕ　Ｙａｏ，ａｎｄ　Ｑｉｎ　Ｚｈｉｇｕａｎｇ（Ｓｃｈｏｏｌ　ｏｆ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｓｏｆｔｗａｒｅ　Ｅｎｇｉｎｅｅｒｉｎｇ，Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｅｌｅｃｔｒｏｎｉｃ　Ｓｃｉｅｎｃｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ　ｏｆ　Ｃｈｉｎａ，Ｃｈｅｎｇｄｕ６１００５４）Ａｂｓｔｒａｃｔ　Ｇｏｏｇｌｅｓ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈ　ｔｅｃｈｎｏｌｏｇｙ　ｈａｓ　ｄｒａｗｎ　ａ　ｌｏｔ　ｏｆ　ｒｅｓｅａｒｃｈ　ａｔｔｅｎｔｉｏｎｓ　ｉｎ　ｒｅｃｅｎｔ　ｙｅａｒｓ．Ｈｏｗｅｖｅｒ，ｄｕｅ　ｔｏ　ｔｈｅ　ｌｉｍｉｔｅｄ　ｐｕｂｌｉｃ　ｄｉｓｃｌｏｓｕｒｅ　ｏｆ　ｔｅｃｈｎｉｃａｌ　ｄｅｔａｉｌｓ，ｐｅｏｐｌｅ　ｆｉｎｄ　ｉｔ　ｄｉｆｆｉｃｕｌｔ　ｔｏ　ｕｎｄｅｒｓｔａｎｄｔｈｅ　ｃｏｎｎｏｔａｔｉｏｎ　ａｎｄ　ｖａｌｕｅ　ｏｆ　ｔｈｉｓ　ｔｅｃｈｎｏｌｏｇｙ．Ｉｎ　ｔｈｉｓ　ｐａｐｅｒ，ｗｅ　ｉｎｔｒｏｄｕｃｅ　ｔｈｅ　ｋｅｙ　ｔｅｃｈｎｉｑｕｅｓ　ｉｎｖｏｌｖｅｄｉｎ　ｔｈｅ　ｃｏｎｓｔｒｕｃｔｉｏｎ　ｏｆ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈ　ｉｎ　ａ　ｂｏｔｔｏｍ－ｕｐ　ｗａｙ，ｓｔａｒｔｉｎｇ　ｆｒｏｍ　ａ　ｃｌｅａｒｌｙ　ｄｅｆｉｎｅｄ　ｃｏｎｃｅｐｔａｎｄ　ａ　ｔｅｃｈｎｉｃａｌ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｏｆ　ｔｈｅ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈ．Ｆｉｒｓｔｌｙ，ｗｅ　ｄｅｓｃｒｉｂｅ　ｉｎ　ｄｅｔａｉｌ　ｔｈｅ　ｄｅｆｉｎｉｔｉｏｎ　ａｎｄｃｏｎｎｏｔａｔｉｏｎ　ｏｆ　ｔｈｅ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈ，ａｎｄ　ｔｈｅｎ　ｗｅ　ｐｒｏｐｏｓｅ　ｔｈｅ　ｔｅｃｈｎｉｃａｌ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｋｎｏｗｌｅｄｇｅｇｒａｐｈ　ｃｏｎｓｔｒｕｃｔｉｏｎ，ｉｎ　ｗｈｉｃｈ　ｔｈｅ　ｃｏｎｓｔｒｕｃｔｉｏｎ　ｐｒｏｃｅｓｓ　ｉｓ　ｄｉｖｉｄｅｄ　ｉｎｔｏ　ｔｈｒｅｅ　ｌｅｖｅｌｓ　ａｃｃｏｒｄｉｎｇ　ｔｏ　ｔｈｅａｂｓｔｒａｃｔ　ｌｅｖｅｌ　ｏｆ　ｔｈｅ　ｉｎｐｕｔ　ｋｎｏｗｌｅｄｇｅ　ｍａｔｅｒｉａｌｓ，ｉｎｃｌｕｄｉｎｇ　ｔｈｅ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ　ｌａｙｅｒ，ｔｈｅｋｎｏｗｌｅｄｇｅ　ｉｎｔｅｇｒａｔｉｏｎ　ｌａｙｅｒ，ａｎｄ　ｔｈｅ　ｋｎｏｗｌｅｄｇｅ　ｐｒｏｃｅｓｓｉｎｇ　ｌａｙｅｒ，ｒｅｓｐｅｃｔｉｖｅｌｙ．Ｓｅｃｏｎｄｌｙ，ｔｈｅｒｅｓｅａｒｃｈ　ｓｔａｔｕｓ　ｏｆ　ｔｈｅ　ｋｅｙ　ｔｅｃｈｎｏｌｏｇｉｅｓ　ｆｏｒ　ｅａｃｈ　ｌｅｖｅｌ　ａｒｅ　ｓｕｒｖｅｙｅｄ　ｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙ　ａｎｄ　ａｌｓｏｉｎｖｅｓｔｉｇａｔｅｄ　ｃｒｉｔｉｃａｌｌｙ　ｆｏｒ　ｔｈｅ　ｐｕｒｐｏｓｅｓ　ｏｆ　ｇｒａｄｕａｌｌｙ　ｒｅｖｅａｌｉｎｇ　ｔｈｅ　ｍｙｓｔｅｒｉｅｓ　ｏｆ　ｔｈｅ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈｔｅｃｈｎｏｌｏｇｙ，ｔｈｅ　ｓｔａｔｅ－ｏｆ－ｔｈｅ－ａｒｔ　ｐｒｏｇｒｅｓｓ，ａｎｄ　ｉｔｓ　ｒｅｌａｔｉｏｎｓｈｉｐ　ｗｉｔｈ　ｒｅｌａｔｅｄ　ｄｉｓｃｉｐｌｉｎｅｓ．Ｆｉｎａｌｌｙ，ｆｉｖｅｍａｊｏｒ　ｒｅｓｅａｒｃｈ　ｃｈａｌｌｅｎｇｅｓ　ｉｎ　ｔｈｉｓ　ａｒｅａ　ａｒｅ　ｓｕｍｍａｒｉｚｅｄ，ａｎｄ　ｔｈｅ　ｃｏｒｒｅｓｐｏｎｄｉｎｇ　ｋｅｙ　ｒｅｓｅａｒｃｈ　ｉｓｓｕｅｓ　ａｒｅｈｉｇｈｌｉｇｈｔｅｄ．Ｋｅｙ　ｗｏｒｄｓ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈ；ｓｅｍａｎｔｉｃ　Ｗｅｂ；ｉｎｆｏｒｍａｔｉｏｎ　ｒｅｔｒｉｅｖａｌ；ｓｅｍａｎｔｉｃ　ｓｅａｒｃｈ　ｅｎｇｉｎｅ；ｎａｔｕｒａｌｌａｎｇｕａｇｅ　ｐｒｏｃｅｓｓｉｎｇ　　要谷歌知识图谱技术近年来引起了广泛关注，由于公开披露的技术资料较少，使人一时难以看清摘从知识图谱的定义和技术架构出发，对构建知识图谱涉及的关键技术进行了自底该技术的内涵和价值．．１）对知识图谱的定义和内涵进行了说明，并给出了构建知识图谱的技术框架，按照输向上的全面解析入的知识素材的抽象程度将其划分为个层次：信息抽取层、知识融合层和知识加工层；２）分别对每个层次涉及的关键技术的研究现状进行分类说明，逐步揭示知识图谱技术的奥秘，及其与相关学科领域的关系；３）对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结关键词知识图谱；语义网；信息检索；语义搜索引擎；自然语言处理３．　中图法分类号　ＴＰ１８　　收稿日期：２０１４－１１－０６；修回日期：２０１５－０４－０８基金项目：高技术研究发展计划基金项目 ” 科研基金项目八六三 “ 国家（ＭＣＭ２０１２１０４１）（２０１１ＡＡ０１０７０６）；国家自然科学基金项目（６１１３３０１６，６１２７２５２７）；教育部中国移动－Ｔｈｉｓ　ｗｏｒｋ　ｗａｓ　ｓｕｐｐｏｒｔｅｄ　ｂｙ　ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｈｉｇｈ　Ｔｅｃｈｎｏｌｏｇｙ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｄｅｖｅｌｏｐｍｅｎｔ　Ｐｒｏｇｒａｍ　ｏｆ　Ｃｈｉｎａ（８６３Ｐｒｏｇｒａｍ）（２０１１ＡＡ０１０７０６），ｔｈｅ　Ｎａｔｉｏｎａｌ　Ｎａｔｕｒａｌ　Ｓｃｉｅｎｃｅ　Ｆｏｕｎｄａｔｉｏｎ　ｏｆ　Ｃｈｉｎａ（６１１３３０１６，６１２７２５２７），ａｎｄ　Ｍｉｎｉｓｔｒｙ　ｏｆ　Ｅｄｕｃａｔｉｏｎ－ＣｈｉｎａＭｏｂｌｉｅ　Ｃｏｍｍｕｎｉｃａｔｉｏｎｓ　Ｃｏｒｐｏｒａｔｉｏｎ　Ｒｅｓｅａｒｃｈ　Ｆｕｎｄｓ（ＭＣＭ２０１２１０４１）．

刘　峤等知识图谱构建技术综述：３８５１．，．、，例如中国科学院例如在业界．个大规模中英文跨语言知识图谱搜狗知立方等商业应用、其知识库特点是规模相对较小，（ＨｏｗＮｅｔ）知识质量高、由于中文知识图谱的构建对中近出现了百度知，在学术界清华大学建要采用人工编辑的方式进行构建计算机语言信息中心董振东领导的知网项目但领域限定性较强文信息处理和检索具有重要的研究和应用价值年来吸引了大量的研究心成了第中国科学院计算技术研究所基于开放知识网络原型系中国科学院数学与系统科学研究院陆汝钤院士、上海交通大学构建复旦实验室 ⑤ 推出的中文知识图谱项目等［２］，涵盖的知识领并且能为用户提供一定的智能搜索及问，（ＯｐｅｎＫＮ）统提出知件、并发布了中文知识图谱研究平台大学这些项目的特点是知识库规模较大域较广泛答服务ｚｈｉｓｈｉ．ｍｅ④ 、（Ｋｎｏｗｗａｒｅ）知立方、事立方、人立方 “ ＸＬｏｒｅ③ 、的概念建立了ＧＤＭ， ” ，．随着近年来谷歌知识图谱相关产品的不断上线这一技术也引起了业界和学术界的广泛关注它，．究竟是概念的炒作还是如谷歌所宣称的那样是下一代表着互联网技术发展的未来代搜索引擎的基石方向？为了回答这一问题首先需要对知识图谱技术有完整深刻的理解本文的目的就是从知识图谱深度剖析知识图谱概念的内涵和的构建角度出发，帮助感兴趣的读者全面了解和认识该技发展历程，术从而客观地做出判断，，，．．知识图谱的定义与架构１　即，．这个定义显得过于简单，维基百科对知识图谱给出的词条解释仍然沿用知识图谱是谷歌用于增强其搜索：然而从业界的发展动态来月发布７搜索引擎只是然而目前这一技术本身而不是追，折射出该领域背后的技术竞争，了谷歌的定义引擎功能的辅助知识库看了自己的Ｓａｔｏｒｉ产品的高级主管表明微软已有类似的技术还存在许多问题随谷歌 ⑥ ．微软希望取得领导地位，这一表态微软在．必应知识库之后２０１３（Ｂｉｎｇ）发布公开表示ＳａｔｏｒｉＷｅｉｔｚ年，，，信息技术的发展不断推动着互联网技术的变正处技术作为互联网时代的标志性技术，，Ｗｅｂ　　革于这场技术变革的核心到数据的链接之父向Ｗｅｂ（ｓｅｍａｎｔｉｃ　Ｗｅｂ）从网页的链接．（Ｗｅｂ　１．０）技术正在逐步朝（ｌｉｎｋｅｄ　ｄａｔａ），ＷｅｂＢｅｒｎｅｒｓ－Ｌｅｅ［１］设想中的语义网络演变．的解释，Ｗ３Ｃ根据而知识图谱（Ｗｅｂ　ｏｆ　ｄａｔａ），语义网络是一张数据构成语义网络技术向用户提供的是其核心要义是以图形的方式向用户返，的网络一个查询环境回经过加工和推理的知识① ．（ｋｎｏｗｌｅｄｇｅ技术则是实现智能化语义检索的基础和桥ｇｒａｐｈ）传统搜索引擎技术能够根据用户查询快速排序梁．网页这种网页检索效率并不意味着用户能够快速准确地获取信息和知还需要进行人工识，这排查和筛选，种信息检索方式已经很难满足人们全面掌控信息资源的需求知识图谱技术的出现为解决信息检索问，题提供了新的思路随着互联网信息总量的爆炸性增长．对于搜索引擎反馈的大量结果，提高信息检索的效率，然而．，知识图谱的概念是由谷歌公司提出的．，，月日谷歌发布知识图谱项目１７公司Ｍｅｔａｗｅｂ该项目始于．５基础构建下一代智能化搜索引擎年谷歌收购语义搜索核心技术的网页中抽取出实体及其属性信息关系问答问题２０１０并籍此获得了该公司的，其中的关键技术包括从互联网以及实体间的这些技术特别适用于解决与实体相关的智能．由此创造出一种全新的信息检索模式，，，年并宣布以此为．２０１２虽然知识图谱的概念较新新的研究领域数据链接关的技术标准如早在．２００６年（ｌｉｎｋｅｄ　ｄａｔａ）的思想，，．但它并非是一个全就提出了呼吁推广和完善相，Ｂｅｒｎｅｒｓ－ＬｅｅＵＲＩ（ｕｎｉｆｏｒｍ　ｒｅｓｏｕｒｃｅ　ｉｄｅｎｔｉｆｉｅｒ），ＲＤＦ（ｒｅｓｏｕｒｃｅ　ｄｅｓｃｒｉｐｔｉｏｎ　ｆｒａｍｅｗｏｒｋ），ＯＷＬ（Ｗｅｂ为迎接语义网络时代的到来做ｏｎｔｏｌｏｇｙ　ｌａｎｇｕａｇｅ），知识随后掀起了一场语义网络研究热潮好准备 ② ．，图谱技术正是建立在相关的研究成果之上的是对现有语义网络技术的一次扬弃和升华，我国对于中文知识图谱的研究已经起步得了许多有价值的研究成果．并取早期的中文知识库主，．　① ｈｔｔｐ：??ｗｗｗ．ｗ３．ｏｒｇ?ｓｔａｎｄａｒｄｓ?ｓｅｍａｎｔｉｃｗｅｂ?ｄａｔａ　② ｈｔｔｐ：??ｗｗｗ．ｗ３．ｏｒｇ?ＤｅｓｉｇｎＩｓｓｕｅｓ?ＬｉｎｋｅｄＤａｔａ．ｈｔｍｌ　③ ｈｔｔｐ：??ｘｌｏｒｅ．ｏｒｇ?ｉｎｄｅｘ．ａｃｔｉｏｎ　④ ｈｔｔｐ：??ｚｈｉｓｈｉ．ａｐｅｘｌａｂ．ｏｒｇ　⑤ ｈｔｔｐ：??ｇｄｍ．ｆｕｄａｎ．ｅｄｕ．ｃｎ　⑥ ｈｔｔｐ：??ｅｎ．ｗｉｋｉｐｅｄｉａ．ｏｒｇ?ｗｉｋｉ?Ｋｎｏｗｌｅｄｇｅ＿Ｇｒａｐｈ

４８５计算机研究与发展　２０１６，５３（３）十分激烈业界对此的普遍重视库产品和相关应用从当前披露出来的商业产品，表．１其中，也能看出给出了当前主流的知识包含实体数最多的是万亿亿条实亿个实体和，实体总数已超过，知识库，５１０３５０微软的．．Ａｐｐｌｅ　Ｓｉｒｉ，Ｇｏｏｇｌｅ　Ｎｏｗ而且规模在不断地增加，，谷歌的知识图谱拥有．ＷｏｌｆｒａｍＡｌｐｈａ条体间的关系包含的概念总量达到千万级最多的知识库的智能助理应用正是分别建立在识库和谷歌的知识图谱基础之上内也涌现出一些知识图谱产品和应用立方网三元组推理补充实体数据理解以及句法分析等［３］．侧重于图的逻辑推理计算，Ｐｒｏｂａｓｅ是当前包含概念数量等当前流行知国：如搜狗的知能够利用基于语义，对用户查询进行语义ＷｏｌｆｒａｍＡｌｐｈａ值得注意的是．，，Ｔａｂｌｅ　１　Ｋｎｏｗｌｅｄｇｅ　Ｇｒａｐｈ　ａｎｄ　Ｓｉｍｉｌａｒ　Ｐｒｏｄｕｃｔｓ表１　知识图谱及相关类似产品Ｋｎｏｗｌｅｄｇｅ　Ｂａｓｅ　Ｐｒｏｄｕｃｔｓ　Ｄａｔａ　ＳｏｕｒｃｅＫｎｏｗｌｅｄｇｅＧｏｏｇｌｅ　Ｓｅａｃｈ　ＥｎｇｉｎｅＷｉｋｉｐｅｄｉａ，Ｆｒｅｅｂａｓｅ，ＶａｕｌｔＧｏｏｇｌｅ　ＮｏｗＷｅｂ　Ｏｐｅｎ　ＤａｔａＷｏｌｆｒａｍ　Ａｌｐｈａ　Ａｐｐｌｅ　Ｓｉｒｉ　ＭａｔｈｅｍａｔｉｃａＳａｔｏｒｉ?ＰｒｏｂａｓｅＢｉｎｇ　Ｓｅａｃｈ　ＥｎｇｉｎｅＭｉｃｒｏｓｏｆｔ　ＣｏｒｔａｎａＷｉｋｉｐｅｄｉａ，Ｗｅｂ　Ｏｐｅｎ　ＤａｔａＷａｔｓｏｎ　ＫＢＩＢＭ　ＷａｔｓｏｎＳｙｓｔｅｍＷｅｂ　ＤｉｃｔｉｏｎａｒｉｅｓＴｈｅ　Ｗｏｒｌｄ　ＢｏｏｋＥｎｃｙｃｌｏｐｅｄｉａＤＢｐｅｄｉａ　ＫＢ　ＤＢｐｅｄｉａ　ＹＡＧＯ　ＫＢ　ＹＡＧＯ　ＷｉｋｉｐｅｄｉａＷｉｋｉｐｅｄｉａＮＥＬＬ　ＫＢ　ＮＥＬＬ　Ｗｅｂ　Ｏｐｅｎ　ＤａｔａＦａｃｅｂｏｏｋ　ＫＢ　ＳｈｏｐｙｃａｔＺｈｉｌｉｆａｎｇ　ＫＢＳｏｕｇｏｕ　ＳｅａｃｈＥｎｇｉｎｅＳｏｃｉａｌ　ＮｅｔｗｏｒｋＤａｔａＷｅｂ　Ｏｐｅｎ　ＤａｔａＺｈｉｘｉｎ　ＫＢＢａｉｄｕ　ＺｈｉｘｉｎＵｓｅｒ　ＧｅｎｅｒａｔｅｄＰｌａｔｆｏｒｍＣｏｎｔｅｎｔＣｒｏｓｓ－Ｌｉｎｇｕａｌ　ＫＢ　ＸＬＯＲＥＣｈｉｎｅｓｅ?ＥｎｇｌｉｓｈＥｎｃｙｃｌｏｐｅｄｉａ，ＷｉｋｉｐｅｄｉａＺｈｉｓｈｉ．ｍｅ　ＫＢ　Ｚｈｉｓｈｉ．ｍｅ　Ｃｈｉｎｅｓｅ　Ｅｎｃｙｃｌｏｐｅｄｉａ，１从表可以看出Ｆａｃｅｂｏｏｋ，Ａｐｐｌｅ，ＩＢＭ除传统搜索服务提供商之外，　　包括等互联网领军企业也加入了竞争其应用也，因此知识图谱的概念目前仍处在发处于探索阶段，展变化的过程中通过对现有的研究成果进行比较，和提炼由于相关技术和标准尚未成熟．本文提出知识图谱的定义，．１．１　知识图谱的定义知识图谱定义．１．是结构化的语义知识库用，于以符号形式描述物理世界中的概念及其相互关系以关系，－及实体及其相关属性实体间通过关系相互联，结其基本组成单位是． “ 值对－实体－三元组实体 ” 构成网状的知识结构，通过知识图谱．可以实现，Ｗｅｂ支持用户按主题而不是字符串检索，基于知识图谱的搜索引擎．念链接转变而真正实现语义检索够以图形方式向用户反馈结构化的知识浏览大量网页就可以准确定位和深度获取知识，包含层含义定义，从网页链接向概从，能，用户不必．１３：１）知识图谱本身是一个具有属性的实体通过知识，其中的节点表示物而实体间的各种语义关系知识图谱是对物理世界的，关系链接而成的网状知识库从图的角度来看．图谱在本质上是一种概念网络理世界的实体则构成网络中的边一种符号表达或概念（由此．），，．知识图谱的研究价值在于２）基础之上的一层覆盖网络它是构建在当前，能够在，（ｏｖｅｒｌａｙ　ｎｅｔｗｏｒｋ），Ｗｅｂ借助知识图谱网页之上建立概念间的从而以最小的代价将互联网中积累的信链接关系，息组织起来成为可以被利用的知识，Ｗｅｂ．３）知识图谱的应用价值在于一方面通过推理实现概念检索，它能够改变现有，相的信息检索方式（另一方面以对于现有的字符串模糊匹配方式而言图形化方式向用户展示经过分类整理的结构化知从而使人们从人工过滤网页寻找答案的模式中识，解脱出来）；．１．２　知识图谱的架构知识图谱的架构，包括知识图谱自身的逻辑结后体系架构（），构以及构建知识图谱所采用的技术者是本文讨论的重点．，，个层次例如谷歌的．首先介绍知识图谱的逻辑结构数据层和模式层：２知识以事实从逻辑上将知识图谱划分为在知识图．谱的数据层为单位存储在图数都是典据库实型的图数据库体则，存储在图数据库中的所有数据将构成庞大的实体关系网络或者．三元组作为事实的基本表达方式（ｆａｃｔ）和微软的关系实体－Ｔｒｉｎｉｔｙ实体 ” －Ｇｒａｐｈｄ “ 性值－属性－如果以 “ ” 形成知识的，图谱 “ 模式层在数据层之上 ”．是知识图谱的核心，在模．通常采用本体库来规则和、，借助本体库对公理，式层存储的是经过提炼的知识管理知识图谱的模式层

刘　峤等知识图谱构建技术综述：５８５约束条件的支持能力来规范实体类型和属性等对象之间的联系中的地位相当于知识库的模具库冗余知识较少．，．关系以及实体的、本体库在知识图谱拥有本体库的知识接下来从知识图谱构建的角度介绍知识图谱给出了知识图谱技术的整体其中虚线框内的部分为知识图谱的构建过程，的一般技术架构架构图．，１，，１所示同时也是知识图谱更新的过程如图．谱的构建过程是从原始数据出发或半自动的技术手段素的过程逻辑合以及知识加工知识图，采用一系列自动从原始数据中提取出知识要并将其存入知识库的数据层和模式层根据知识获取的，信息抽取知识融这是一个迭代更新的过程．每一轮迭代包含，即事实（个阶段），，３：、．Ｆｉｇ．１　Ｔｅｃｈｎｉｃａｌ　ａｒｃｈｉｔｅｃｔｕｒｅ　ｏｆ　ｋｎｏｗｌｅｄｇｅ　ｇｒａｐｈ．图知识图谱的技术架构１　２从高质量数据中提取本体和模式信息，知识图谱有自顶向下和自底向上种构建方所谓自顶向下构建是指借助百科类网站等结构．加，则是借助一定的，选，加入，　　式化数据源入到知识库中技术手段择其中置信度较高的新模式到知识库中从公开采集的数据中提取出资源模式，所谓自底向上构建；经人工审核之后，．，，Ｆｒｅｅｂａｓｅ在知识图谱技术发展初期多数参与企业和科研机构都是采用自顶向下的方式构建基础知识库，例如项目就是采用维基百科作为主要数据来源随着自动知识抽取与加工技术的不断成熟，．目前的知识图谱大多采用自底向上的方式构建其中最具影响力的例子包括谷歌的和微软的Ｓａｔｏｒｉ页数据为数据源丰富和完善现有的知识库Ｋｎｏｗｌｅｄｇｅ　Ｖａｕｌｔ都是以公开采集的海量网知识库通过自动抽取资源的方式来构建，，，、．，本文主要介绍自底向上的知识图谱构建信息抽因此按照知识获取的过程分为，知识融合以及知识加工、个层次３：技术取．知识图谱的构建技术２　３，，如）、１．２；２）：１）节所述概念（信息抽取属性以及实体间的相互关系采用自底向上的方式构建知识每一轮更新包即从各种类型的数据源中，在，在获知识融合，以消除矛盾和歧，某个特定称谓也，对于经过，部分需要人（需要对其进行整合，比如某些实体可能有多种表达，图谱的过程是一个迭代更新的过程括个步骤提取出实体此基础上形成本体化的知识表达得新知识之后义许对应于多个不同的实体等融合的新知识工参与甄别以确保知识库的质量拓展现有知识推理、信息抽取信息抽取步新增数据之后．得到新知识、构建的第源中自动抽取信息得到候选知识单元是知识图谱（ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ）其中的关键问题是如何从异构数据，信息抽取是需要经过质量评估之后，才能将合格的部分加入到知识库中，可以进行知识，知识加工；３）），．１２．１　．

６８５计算机研究与发展　２０１６，５３（３）一种自动化地从半结构化和无结构数据中抽取实涉及体的关键技术包括实体抽取：实体抽取关系以及实体属性等结构化信息的技术［４］．、关系抽取和属性抽取、．２．１．１　实体抽取也称为命名实体识别，（ｎａｍｅｄ　ｅｎｔｉｔｙ是指从文本数据集中自动识别对因此是信息准确率和召回率ｒｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ），出命名实体后续的知识获取效率和质量影响极大抽取中最为基础和关键的部分实体抽取的质量．（），．年），随后然而．难以适应数据的变化，早期对实体抽取方法的研究主要面向单一领域如特定行业或特定业务关注如何识别出文本中（地名等专有名词和有意义的时间等实体信的人名、息［５］．１９９１，Ｒａｕ［６］采用启发式算法与人工编写规首次实现了从文本中自动抽取公则相结合的方法，基于规则的方法司名称的实体抽取原型系统，而且可具有明显的局限性，人们开始扩展性较差尝试采用统计机器学习方法辅助解决命名实体抽取问题不仅需要耗费大量人力，．单纯基于有监督学习的实体抽取方法，最近邻，Ｌｉｕ算法和条件随机场模型文本数据中包含实体的识别Ｔｗｉｔｔｅｒ止和召回率上的表现都不够理想于训练样本的规模先验知识最近有学者采用有监督学习与规则（取得了一些积极的研究成果例如合的方法，，人［８］采用字典辅助下的最大熵算法（Ｋ－Ｎｅａｒｅｓｔ实现了对，然而迄今为在准确率，且算法的性能依赖对此类方法的发展形成了制约，．相结）等在基于数据集上取得了实体Ｎｅｉｇｈｂｏｒｓ）等人［７］利用论文摘要的例如ＬｉｎＫ－．，，，，ＭｅｄｌｉｎｅＧＥＮＩＡ抽取准确率和召回率均超过的实验结果，，．，，７０％（ｏｐｅｎ　ｄｏｍａｉｎ）的信息抽取问题随着命名实体识别技术不断取得进展研究和解决全网信息抽取问题，开始关注开放域不再限定于特定的知识领域网为此建立一个科学完整的命名实体分类体系于指导算法研究数据进行管理，Ｓｅｋｉｎｅ了一个层次结构的命名实体分类体系有的命名实体划分为学术界对建立命名实体分类体系的重视的命名实体识别研究产生了深远的影响．学术界即，而是面向开放的互联需要首先一方面用另一方面便于对抽取得到的实体；等人［９］就提出早在将网络中所该项成果引起了并对后续年，归纳并基于条件随机场模型进行实最后采用自适应感知机算法实现了对，等人［１０］借鉴种实体类别Ｌｉｎｇ出体边界识别的实体分类方法Ｆｒｅｅｂａｓｅ个分类．２０１２２００２１１２１５０年．，．，，，实体的自动分类其实验结果显著优于，ＳｔａｎｆｏｒｄＮＥＲ，采用统计机器学习的方法，等当前主流的命名实体识别系统然而．互联网中的内容是动态变化的，Ｗｅｂ　２．０，采用人工技术更进一步推动了互联网的概念创新，预定义实体分类体系的方式已经很难适应时代的需面向开放域的实体抽取和分类技术能够较好地求．解决这一问题该方法的基本思想是对于任意给定，的实体从目标数据集中抽取出与之具有相似上通常是网页等文本数据（）从而实现实体的分类和聚类［１１］．下文特征的实体，不需为每个领域或每个实体类别建立单独要）该领域面临的主要挑战的语料库作为训练集，是如何从给定的少量实体实例中自动发现具有区分等人［１２］提出了一力的模式基本思路是根种迭代扩展实体语料库的解决方案，利用该模型对处据已知的实体实例进行特征建模理海量数据集得到新的命名实体列表然后针对新迭代地生成实体标注语料库实体建模，在面向开放域的实体识别和分类研究中也不可能（针对该问题．，Ｗｈｉｔｅｌａｗ因此．，，，．例如．另一种思路是通过搜索引擎的服务器日志获取等人［１３］提出了一种面即事先并不给出实体而是基于实体的语义特征从搜索日志中识别，然后采用聚类算法对识别出的实体对，该方法已经在搜索引擎技术中得到应，新出现的命名实体Ｊａｉｎ向开放域的无监督学习算法分类出命名实体象进行聚类用用于根据用户输入的关键字自动补全信息，，．关系抽取２．１．２　文本语料经过实体抽取，的命名实体为了得到语义信息，中提取出实体之间的关联关系念系抽取技术的目的取实体间的关系这一基本问题得到的是一系列离散还需要从相关语料，概通过关系将实体（，研究关就是解决如何从文本语料中抽才能够形成网状的知识结构，联系起来）．，．２：１）点明显的不足早期的关系抽取研究方法主要是通过人工构造据此采用模式匹配的方法来识别，要求这种方法有．并且对特定难规则制定工作量大，且难以拓展到其他领通，替代预定义的语等人［１４］利用自然语语法和语义规则实体间的关系制定规则的人具有良好的语言学造诣领域有深入的理解和认知以适应丰富的语言表达风格域过对实体间关系的模式进行建模法和语义规则言中的词法例如．句法以及语义特征进行实体关系建模、为此学术界开始尝试采用统计机器学习方法．Ｋａｍｂｈａｔｌａ；２），，，，

刘　峤等知识图谱构建技术综述：７８５．ＯＩＬＬＩＥ召回率．，．通过最大熵方法成功地实现了不借助规则硬编码的实体关系抽取，，，，ＡＣＥ随后８８％．例如．（ＨｏｗＮｅｔ）准确率达到了在开放数据集上对关系抽取的准确性也不断提高，类实体关系进行抽取６有监督学习方法也存在明显不足，监督学习方法刘克彬等人［１５］借助知网库构造语义核函数的而法的有效性因此的学习方式出现了大量基于特征向量或核函数的有例如．提供的本体知识定义然为了确保算需要人工标注大量的语料作为训练集，近年来的研究重点逐渐转向半监督和无监督，等人［１６］提出了一种基于能够自动进行实，陈立玮等人［１７］针对弱监督学习中标注．算法设通过向传统模型，特征进行协同训练实现了对弱监在中文和英文数据集上关等人［１８］采用基于．Ｚｈａｎｇ在公开语料库上获得了较位置关系、Ｂｏｏｔｓｔｒａｐ体关系建模数据不完全可靠的问题计思想中引入督关系抽取模型的强化，系抽取性能均得到了提升实例的无监督学习方法好的实验结果能够对实体间的雇佣关系，以及生产关系等多元关系进行精准识别提出了一种协同训练方法，算法的半监督学习方法Ｂｏｏｔｓｔｒａｐｐｉｎｇ，Ｃａｒｌｓｏｎ基于，Ｎ－Ｇｒａｍ，，．，．年Ｂａｎｋｏ，２００７如雇佣关系，然而在实际应用中．以上研究成果的共同特点是需要预先定义实体整体部分关系以及位置关系、要想定义出一个完美的实体，为了解决这一制约关华等人［１９］提出了面向开放关系类型等关系分类系统是十分困难的系抽取技术走向实际应用的关键问题盛顿大学图灵中心的域的信息抽取方法框架实体－并发布了基于自监督（ｓｅｌｆ－ｓｕｐｅｒｖｉｓｅｄ）（ＴｅｘｔＲｕｎｎｅｒ）．（ｏｐｅｎ　ｉｎｆｏｒｍａｔｉｏｎ　ｅｘｔｒａｃｔｉｏｎ，学习该系据此得到一再依据该模型对开放数据进依据分类结果训练朴素贝叶斯模型来识别，关系经过大规模真实数据测－ＯＩＥ），方式的开放信息抽取原型系统统采用少量人工标记数据作为训练集个实体关系分类模型行分类实体 “ 试取得了显著优于同时期其他方法的结果，面向开放域的关系抽取技术直接利用语料中的因此不需要预先指关系词汇对实体关系进行建模定关系的分类等发布了面向开放域信息抽取人［２０］在，该系统能够利用维基百科网页信息的，框自动构造实体关系训练集这项工作，也为批量构造高质量的训练语料提供了新的思路性能优于早期的，这是一个很大的进步，的基础上提供的属性信息ＴｅｘｔＲｕｎｎｅｒ（ｉｎｆｏｂｏｘ）ＯＩＥ系统三元组，ＷｕＷＯＥ例如系统，， ” ，，，，．．，ＷＯＥＴｅｘｔＲｕｎｎｅｒ等人［２１］通过对据此引入语法限制条件和字典约束，系系统和Ｆａｄｅｒ发现其中错误的统的实体关系抽取结果进行分析部分主要是一些无意义或不合逻辑的实体关系三元组采用先识别，关系指示词有效提，等人［２２］针对上述系高了关系识别准确率统均无法识别非动词性关系的局限通过引入上下提出了一个支持非动词性关系抽取的文分析技术，系统有效提高了自动关系抽取的准确率和，然后再对实体进行识别的策略，．Ｍａｕｓａｍ，（Ｈ－而且由于当前的面向开放域的关系抽取方法在准确率和召回率等综合性能指标方面与面向封闭领域的因此有部分学者开传统方法相比仍有一定的差距，始尝试将两者的优势结合起来等人［２３］例如．提出了一种基于条件随机场的关系抽取模型Ｂａｎｋｏ，当目标数据集中拥有的关系数量不大ＣＲＦ），有预先定义好的实体关系分类模型可用的情况下，采用传统的机器学习算法进行关系抽取而对于没有预先定义好的实体关系模型或者关系数量过多的微软公司人立方情况．模型也是基于这种策项目所采用的ＳｔａｔＳｎｏｗｂａｌｌ略实现其关系抽取功能［２４］．则采用开放域关系抽取方法，，当前流行的系统在关系抽取方面存在，．，）ＯＩＥ；２）的抽取准确率和召回率学术界有着清醒的认识．１）三元组模式（２当前研究的重点是如何提高二元实个主要问题体间关系很，少考虑到在现实生活中普遍存在的高阶多元实体关所采用的研究方法大多只关注发掘词汇或词系而无法实现对隐含语义关系的组之间的关系模式抽取对此等人［２５］采用提系统对多出了元实体关系的识别能力在隐含关系识别方面，提高ＭｃＣａｌｌｕｍ［２６］提出采用后期关系推理的方法这些工作都ＯＩＥ是该领域值得重视的研究动向关系抽取研究领域还需要一段时间的积累系统对隐含实体关系的发现能力然而在，要实现算法性能由量变到质变的飞跃，Ａｌａｎ系统进行改进能够有效提高，元关系模型对ＫＲＡＫＥＮ例如模型ＯＩＥＯＩＥＯＩＥＮ，，．，．，．属性抽取２．１．３　例如针对某个公众人物．属性抽取的目标是从不同信息源中采集特定实可以从网络体的属性信息，公开信息中得到其昵称教育背景等信息属性抽取技术能够从多种数据来源中汇集这些．信息实现对实体属性的完整勾画，生日国籍、、、．

８８５由于可以将实体的属性视为实体与属性值之间因此也可以将属性抽取问题视，例如郭剑毅等人［２７］将人物属性抽．采用支持向量机的一种名词性关系为关系抽取问题取问题转化为实体关系抽取问题算法实现了人物属性抽取与关系预测模型，．，．和例如ＷｏｒｄＮｅｔＳｕｃｈａｎｅｋＷｉｋｉｐｅｄｉａ能够从，（ＹＡＧＯ），百科类网站提供的半结构化数据是当前实体属性抽取研究的主要数据来源等人［２８］设计了基于规则和启发式算法的属性抽取算法网页信息框中自据此得到了扩展性良动提取属性名和属性值信息好的本体知识库其抽取准确率高达项目的启发和受，ＤＢｐｅｄｉａ９５％．从维基百科网页信项目以维基百科作为研究对象亿条实息框中抽取了超过体关系信息项目的重要组成部作为．构建了一个维基百科之上的知识网络分，反过来促进了维基百科的应用创新多、也因此成为了目前世界上最维度搜索等庞大的多领域本体知识库之一［２９］．如关系查询，万个实体和超过Ｌｉｎｋｅｄ　Ｄａｔａ，ＤＢｐｅｄｉａ，ＤＢｐｅｄｉａＦｒｅｅｂａｓｅＹＡＧＯ４５８３０，．，尽管可以从百科类网站获取大量实体属性数还有大量的实然而这只是人类知识的冰山一角据，，如何从体属性数据隐藏在非结构化的公开数据中海量非结构化数据中抽取实体属性是值得关注的理一种解决方案是基于百科类网站的半论研究问题．通过自动抽取生成训练语料用于训练结构化数据，，然后将其应用于对非结构化数实体属性标注模型另一种方案是采用数据挖掘据的实体属性抽取［３０］；的方法直接从文本中挖掘实体属性与属性值之间的据此实现对属性名和属性值在文本中的关系模式，这种方法的基本假设是属性名和属性值之间定位．有位置上的关联关系许，多实体属性值附近都存在一些用于限制和界定该属在自然语言处理技术属性名性值含义的关键词因此可以利用这些关中将这类属性称为有名属性键字来定位有名属性的属性值［３１］．２．２　事实上在真实语言环境中，），，（知识融合通过信息抽取，关系以及实体属性信息的目标、这些结果中可能包含大量的冗余和错误信息，实现了从非结构化和半结构化然，数，缺乏层次性和逻辑性，知识融合包括数据中获取实体而据之间的关系也是扁平化的因此有必要对其进行清理和整合部分内容以消除概念的歧义知识的质量实体链接和知识合并：２可从而确保，剔除冗余和错误概念，．通过知识融合．，，．计算机研究与发展　２０１６，５３（３）实体链接（ｅｎｔｉｔｙ　ｌｉｎｋｉｎｇ）是指对于从文本中抽将其链接到知识库中对应的正２．２．１　实体链接取得到的实体对象确实体对象的操作［３２］．，．实体链接的基本思想是首先根据给定的实体指然后通过从知识库中选出一组候选实体对象称项，，相似度计算将指称项链接到正确的实体对象早期的实体链接研究仅关注如何将从文本中抽取到的实忽视了位于同一文档的实体间体链接到知识库中，存在的语义联系近年来学术界开始关注利用实体，同时将多个实体链接到知识库中的共现关系称为，，例如集成实体链接（ｃｏｌｌｅｃｔｉｖｅ　ｅｎｔｉｔｙ　ｌｉｎｋｉｎｇ）．等人［３３］提出的基于图的集成实体链接方法效提高实体链接的准确性Ｈａｎ能够有，．实体链接的一般流程是；２）：１）从文本中通过实体进行实体消歧和共指消解抽取得到实体指称项判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同在确认知识库中对应的正确实体对象之的含义后将该实体指称项链接到知识库中对应实体，；３）．，实体消歧１）实体消歧．（ｅｎｔｉｔｙ　ｄｉｓａｍｂｉｇｕａｔｉｏｎ）是专门用于在实际语言环经常会遇到某个实体指称项对应于多个命名，可也可以对应于就，实体消歧．解决同名实体产生歧义问题的技术境中实体对象的问题以对应于作为歌手的李娜这个实体作为网球运动员的李娜这个实体可以根据当前的语境主要采用聚类法准确建立实体链接，通过实体消歧，这个名词例如，指称项李娜 “ ” （），聚类法是指以实体对象为聚类中心将所有指向同一目标实体对象的指称项聚集到以该对象为中聚类法消歧的关键问题是如何定义实心的类别下．体对象与指称项之间的相似度种，．空间向量模型 ① 常用方法有，词袋模型（）．４．典型的方法是取然将该指称项聚，当前语料中实体指称项周边的词构成特征向量后利用向量的余弦相似度进行比较，类到与之最相近的实体指称项集合中等人［３４］采用该方法例如在，数据集上取得了很高的消歧精度ＢａｇｇａＭＵＣ６（Ｍｅｓｓａｇｅ　Ｕｎｄｅｒｓｔａｎｄｉｎｇ值然而该方法的缺点在于没有考虑上这种信息损失会导致在某些情况下，如短文本分析，语义模型该模型与空间向量模型类似（Ｆ区８４．６％）．Ｃｏｎｆｅｒｅｎｃｅ）高达下文语义信息算法性能恶化．． ② ．，

刘　峤等知识图谱构建技术综述：９８５权重用于表示该实体出现的频率或先验概率，例如．等人［４１］通过统计维基百科中的实体出现的等知据此实现了一个，为解决人物实体的重要性Ｒａｔｉｎｏｖ频率以此作为实体推荐时排序的依据人［４２］则借助搜索引擎的关键词日志和识库本体搜索引擎原型系统，评估提供了一种新的思路构建了一个知名人物本体库，ＤＢｐｅｄｉａ．Ｏｃｈｓ．共指消解２）共指消解．，别在于特征向量的构造方法不同向量不仅包含词袋向量例如向量空间进行分解以此与词袋模型相结合计算结果语义模型的特征而且包含一部分语义特征，．等人［３５］采用奇异值分解技术对文本得到给定维度的浅层语义特征，，能够得到更精确的相似度Ｐｅｄｅｒｓｅｎ，．，（，，，，），Ｍａｌｉｎ社会网络模型 ④ 指称项（ ③ 人以群分、在社会化语境中，分配一个单独页面）该模型的基本假设是物以类．实体指称项的意义建．首先利用实体间的关系将与之相关的指称项，然后利用社会网络分析技术计网络中的节点即以此来判定指称项之间的相似度．等人［３６］利用随机漫步模型对演员合作得到了比基于文本相似度聚在很大程度上是由与其相关联的实体所决定的模时链接起来构成网络算该网络中节点之间的拓扑距离实体的指称项例如网络数据进行实体消歧模型更好的消歧效果百科知识模型百科类网站通常会为每个实．其中包括指向其他百科知识模型正是利用这种链体实体页面的超链接接关系来计算实体指称项之间的相似度Ｈａｎ等人［３７］利用维基百科条目之间的关联关系计算实实验结果表明这种方式能体指称项之间的相似度够有效消除同名实体间的歧义等人［３８］以基于实体所在页面的上下文维基百科作为知识库利用词袋模信息和指称项所在语料的上下文信息型构造特征向量作为实体链接时进行相似度比较的，Ｓｅｎ［３９］进一步在此基础上依据采用主题模型作为相似度计算依据在维基百科人，物数据集上获得了高达等人［４０］提出的似性和主题一致性库于百科类知识库中的实体数非常有限推广性较差．Ｓｈｅｎ模型则同时考虑到了文本相知识由此类方法的取得了当前最好的实体消歧实验结果，实现了实体消歧，基于维基百科和，Ｗｏｒｄｎｅｔ然而的消歧准确率．ＢｕｎｅｓｃｕＬｉｎｄｅｎ例如８６％．，，，．．，，．．为了充分利用海量公开数据中包含的实体区分等人［３２］基于生成模型提出了一种增量证数据集上实现了实体消歧该方法降低了消歧算法对于知Ｔｗｉｔｔｅｒ，性证据，Ｌｉ据挖掘算法准确率的大幅提升识库的依赖在提供了一种很有希望的算法新思路，．实体消歧技术能够帮助搜索引擎更好地理解用提，其中还有一个很重要的问题是如．以确定推荐当前的主要研究思路是为实体赋予．从而给出更好的上下文推荐结果户的搜索意图，高搜索服务质量何对存在歧义的实体进行重要性评估内容的优先级，技术主要用于解例如在（ｅｎｔｉｔｙ　ｒｅｓｏｌｕｔｉｏｎ）．决多个指称项对应于同一实体对象的问题一篇新闻稿中等 “ｈｅ”，“ｈｉｍ” 其中的许多代词如，，“Ｂａｒａｃｋ　Ｏｂａｍａ”，“ｐｒｅｓｉｄｅｎｔ　Ｏｂａｍａ”，等指称项可能指向的是同一实体对也可能指向可以将这些指称项，由于该问题在信息吸因此学术界对该问题有多种 “ｔｈｅ　ｐｒｅｓｉｄｅｎｔ” 象该实体对象合并关联（检索和自然语言处理等领域具有特殊的重要性引了大量的研究努力不同的表述利用共指消解技术．到正确的实体对象）典型的包括对象对齐，，．，：（ｏｂｊｅｃｔ以及实体同（ｅｎｔｉｔｙ　ｍａｔｃｈｉｎｇ），实体匹配ａｌｉｇｎｍｅｎｔ）、义（ｅｎｔｉｔｙ　ｓｙｎｏｎｙｍｓ）．．，，），Ｈｏｂｂｓ朴素（早期的算法将表达模式：代表性方法是，（ｃｅｎｔｅｒｉｎｇ　ｔｈｅｏｒｙ）．Ｈｏｂｂｓ共指消解问题的早期研究成果主要来自自然语近年来统计机器学习领域的学者越来，基于自然语言处理的共言处理领域越多地参与到这项工作中．指消解是以句法分析为基础的Ｈｏｂｂｓ算法和向心理论算法是主要思路是基于句法分最早的代词消解算法之一因此适用于实体与代词出现在同一析树进行搜索，有一定的局限性算句子中的场景Ｈｏｂｂｓ法完全基于句法分析后来则加向心理论的基本思想入了语义分析并沿用至今［４３］．是的基本组成单元可以获，得当前和后续语篇中的关注中心根据语义的局部连贯性和显著性就可以在语篇中跟踪受关注的实体［４４］．向心理论的提出最初并不是为了解决代词消解问题而是为了对语篇中关注中心的局部，因此它虽然一段时间内成为主要连贯性进行建模，的代词消解手段但却不是最佳的理论模型近年利用词性来，提高实体消解方法的适用范标注和语法分析技术围和准确性等人［４５］基于句法分析和词法分析技术提出了消解算法能够识别语篇中的人称代词和反身代词等回指性代词在语篇中回第（ｕｔｔｅｒａｎｃｅ）通过识别表达模式中的实体，学术界开始尝试在向心理论的基础上，（ｄｉｓｃｏｕｒｓｅ）视为语篇Ｌａｐｐｉｎ例如实体），（，，．，．，３

资料库

知识图谱构建技术综述.pdf

相关推荐

人工智能

热门标签

最新资料