北京理工大学
本科生毕业设计(论文)开题报告
学 院: 软件学院
专 业: 软件工程
班 级: 08111201
姓 名: 孙现超
指导教师: 张春霞
校外指导教师:
二○一六年一月二十二日
毕业设计(论文)开题报告评审表
姓名 孙现超
学号
1120122278 班级
08111201 专业(方向) 软件工程
导师 张春霞
校外导师(职称)
校外导师单位
论
文
选
题
评
审
组
成
员
评
审
意
见
题目名称
基于网络百科的知识图谱构建的研究与实现
题目性质(√) 软件开发( √ ) 理论研究( )
题目来源(√)
结合科研( √ ) 结合生产实际( )
结合实验室建设( ) 自拟题目( )
姓 名
职 称
工作单位及职务
签 字
(含:选题意义;选题是否满足毕业要求;技术方案是否可行;进度安排是否合理等)
成 绩
评审组长签字: 年 月 日
注:成绩以“合格”“不合格”记;评审组长为高级职称人员。
1. 毕业设计(论文)选题的内容
本课题主要一种基于网络百科的知识图谱构建方法。通过获取百度百科和互
动百科的结构化知识,使用基于决策级融合算法构建知识图谱。知识图谱类型为
通用知识图谱。
2. 研究方案
2.1 本选题的主要任务
本课题主要一种基于网络百科的知识图谱构建方法。知识图谱包含实体及其
性质和关系知识,使得搜索结果体系化、关联化和可视化。通过获取百度百科和
互动百科的结构化知识,使用基于决策级融合算法构建通用知识图谱。本课题的
关键点在于:
1、网络百科知识的提取;
2、知识融合( ①实体融合、②关系融合、③实例融合 );
3、知识图谱可视化展示( ①结构化知识展示、②实体链接图展示、③多媒
体关联信息展示 )。
2.2 技术方案的分析、选择
图片一
系统的模块流程图如图片一所示,主要数据源为百度百科,辅助数据源为互
动百科。本系统共含四个模块:信息抓取模块、知识抽取模块、知识集成模块、
可视化展示模块。信息抓取模块主要功能为对百度百科和互动百科上将百科数据
进行抓取;知识抽取模块主要功能为针对信息抓取模块上抓取的数据进行数据抓
取、同义关系抽取、概念抽取.
2.2.1 信息抓取模块
信息抓取模块主要解决的是选题任务的第一点:网络百科知识的提取。通过
网络爬虫对百度百科和互动百科的信息进行抓取,为知识抽取模块产生原始数据
基础。
通过爬虫从百度百科、互动百科获取的数据属于半结构化数据,在进行爬虫
抓取和知识抽取时认定以下四个命题为真理:1、在线百科中的基本单元为文章,
(消歧页面除外)一篇文章对应一个实体,文章的标题通常为对应实体的名称;
2、在线百科为了管理数量众多的文章对于每一个文章创建了类别标签用以标识
文章所属类型。百科中分类体系对于文章的分类标签往往是对应实体的属性;3、
文章的所属类型往往被组织成一个层次结构,形成一个无向环图的分类系统;4、
信息模块以表格的形式存在,用于表述文章对应实体的属性。通常包含一系列
AVP;5、百科中存在重定向机制,用于当对于用户以不同的检索条件检索同一
文章时的定位;6、当检索条件蕴含多种意义时进行所有意义的列举。
在互动百科中有一个结构良好的分类系统(http://fenlei.baike.com)每个分类
的页面中包含了子分类个术语该分类的文章,分类系统可以从上到下开始逐层采
集。百度百科没有结构良好的分类系统名单是文章采用数字进行标号,从 1 开始
增长,但是许多数字没有对应的文章。
图片二
对于网络爬虫,拟采用依托 Scrapy 框架的 Python 爬虫,爬虫处理流程如图
片二所示,所需要的条件为 urllib 库、urllib2 库 Python 正则表达式相关、Scrapy
框架。文本信息采集爬虫抓取策略:1、深度优先遍历策略;2、广度优先遍历策
略;3、反向连接数策略;4、Partial PageRank 策略;5、OPIC 策略;6、大站优
先策略。进行数据清理西路:构建面向站点的包装器对于采集到的信息进行处理。
2.2.2 本体构建技术
本体构建概念是知识抽取模块的主要内容,知识抽取模块的主要任务是将上
一模块信息抓取模块产生的数据进行处理,处理流程如图片三所示。
图片三
图片三表示的是基于文本的本体学习的层次结构,在此知识图谱的构建过程
为自下而上的构建方式,首先生成实体,接着对实体进行归纳组织形成底层概念,
接着对底层概念进行抽象形成上层概念。在处理过程中主要分为两步,数据模式
层(本体)的定义和实体的层学习。
2.2.2.1 本体学习
本体的构建处理顺序依次为术语、同义词、概念、分类(概念层次关系)、关
系、公理与规则。
2.2.2.1.1 术语抽取
术语是在特定的领域或上下文环境中有特定含义的单字或多字组合,是知识
图谱中概念、实体火属性的语言学上的表示形式。进行术语抽取的目的是找出用
于表示概念、实体或属性的相关术语或标记集合。抽取步骤:1、分词与词性标
注;2、形态学分析(“形容词-名词”短语、“名词-名词”短语、“形容词-名词-名
词”短语);3、统计学分析术语分布特征(TF-IDF)。
tfidf(w) = tf(w) × log(
N
df(w)
) (式 2-1)
如式 2-1 所示为 TF-IDF 的计算公式,直观表示了单词在各个文档中的相对
重要程度,其中 w 表示一个单词,tf(w)表示单词 w 在单个文档中出现的总次数,
即单词 w 的词频,df(w)表示了包含单词 w 的文档数目,即单词 w 的文档频率,
N 表示了总的范围,即所有文档的数目。
对于中文术语抽取方法,与英文抽取方式大致相同,但由于语言上的差异,
在实际的抽取过程中会出现很大的差异。目前比较高效的处理方式:陈文亮缝纫
使用 Bootstrapping 机器学习提出了一个从较大规模的预料中获取领域词汇的学
习模型“FWB Model”。
2.2.2.1.2 同义关系抽取
同义关系抽取的目的是找寻上一步提取出来的同义术语,即选择那些有相同
概念、实体或属性的术语。抽取方式:基于词典的方法(wordnet、同义词词林扩
展版)、基于词法模式的方法(主要采用手工编写模式辅助少数规则学习)、浅层
语义分析(用于分析文档集合以及包含词汇间关系的技术,采用词汇-文档矩阵
描述词汇中文档出现的情况),在浅层语义分析方面,陆勇等人使用字符串相似
度、模式匹配和 PageRank 链接分析等方法结合从中文百科语料库自动获取同义
词。
2.2.2.1.3 概念抽取
概念是包含内涵、外延和词汇实现三个层面的信息的术语。抽取方法包括基
于语言学的方法(依靠特定的词法结构或模板)、基于统计的方法(依据概念与
一般词汇之间不同的统计特征进行取费)和混合方法。
2.2.2.1.4 分类学关系抽取
分类学关系抽取处理的是概念之间层次关系。通常采用的方法:基于语言学
的方法、基于共现分析的方法(依据同一个概念再不同的文档、段落、句子之间
的重现关系来判断上下围关系)、基于词法模式的方法(通过利用用于描述概念
之间上下围关系语言模式对文本中的句子进行概念健上下围关系的候选)、基于
在线百科的方法(BVG,利用维基百科的分类系统构建高精度分类系统对概念进
行处理判断)。
2.2.2.1.5 非分类关系学习
分类学习主要处理的是概念之间层次关系,非分类关系学习主要处理的事特
殊关系(整体-部分关系)和属性关系。通常使用<定义域,属性名,值域>这一
三元组对属性关系进行描述。非分类关系学习通常采用关联规则学习进行处理
(如果两个概念经常同时出现在同一数据单元中,则认定两个概念之间存在某种
关系)、在线百科获取(利用维基百科的信息模块)。
2.2.2.1.6 公理和关系的学习
公里和关系学习目的是对本体概念、关系上进行的约束,描述更加丰富的语
义。
2.2.2.2 实体层学习
实体层学习主要处理的是为概念添加实例,又被称为本体填充,通常是在上
层构建完成之后进行的操作。实体层学习首先需要发现和添加实体,对实体的数
据进行填充(实体的描述、图片、同义实体名、属性),合并同一实体对应的副
本(实体对齐)。
2.2.3 知识集成模块