基于知识图谱的校园信息自动问答机器人
研究开题报告
一、 毕业论文题目的来源
目前,随着互联网行业的迅速发展,人们对于互联网智能化的需
求也越来越高。其中,人工智能(AI)在互联网行业的发展如火如荼,
越来越多的行业开始去钻研 AI,以期取得在某方面 AI 能取得与人类
想抵甚至超过人类的作用,来帮助人们更好地完成工作。
基于知识图谱的校园信息自动问答机器人研究,是目前还未被完
全研究的一个方向。一方面,校园信息方面繁多且不易查找;另一方
面,自动问答机器人目前的回答问题水平还有待提高,经常是答非所
问或者无法实现联系上下文式的学习式答题。所以,我决定着手解决
基于知识图谱的校园信息自动问答机器人研究。
二、 毕业论文选题的目的和意义
本选题主要是围绕着解决两个基本问题展开的。一是校园信息的
问答,二是机器人的高级回答问题能力。据教育部统计,截止 2018
年 3 月 30 号,全国高等学校数量已达 2879 所,目前数量估计还有提
高。可见,高校相关的信息极为繁多,查找起来自然极为困难。因此,
有一个智能帮助人们检索校园信息的 AI 亟需出现。而谈到智能的 AI,
就自然而然的想到用自动问答机器人去解决该问题。所以,基于知识
图谱的校园信息自动问答机器人研究,目前,有很大研究空间。
三、 国内外关于该选题的研究现状和发展趋势
就国内外现状,智能问答机器人的应用十分火爆。很多企业都不
考虑招收大量人工客服,采用智能问答机器人来更加快速并标准的利
用知识库的知识,满足企业客户的要求,并可以以自然的对话或文字
聊天的形式进行客服咨询。目前智能问答机器人被广泛应用于电商、
健康、教育、金融等各个行业,进行了算法优化和个性化定制,在语
音识别技术方面也有着不俗的表现。
近年来,随着深度学习技术的发展,各大公司关于聊天机器人的
应用也是层出不穷,从微软的小冰、苹果的 Siri、Google now 到百
度的度秘,人工机器人已经被各大公司看做是下一代人工交互的服务
渠道。
问答机器人有着十分多样的分类。
按领域分类:从话题层面进行区分,在开放领域下,用户可以和
机器人聊任何话题,在专业领域下,只能聊机器人设定的主题。
按场景分类:按场景分为多轮对话和单轮对话。多轮对话是用户
带着特定目的而来,希望得到满足特定限制条件的信息或服务,而单
轮对话当前大量研究都是面向短对话的,如微软的小冰。
按技术路线分类:可以分为检索式对话聊天系统、生成式对话聊
天系统、检索和生成相结合的方法。检索式对话聊天系统:在已有的
对话语料库中通过排序学习和匹配技术找到适合当前输入的最佳回
复。生成式对话聊天系统:通过一种类似机器翻译中常用的编码—解
码的过程去逐字逐句地生成一个回复。
按形式分类:可以分为主动和被动。主动的对话,在人机对话的
时候,机器人能引入新内容以打破对话僵滞的状态。被动的对话,一
般认为,人类应该主导人机对话,所以传统方法中,机器人是被动的,
只需回应就够了。
具体关于自动问答机器人的技术,目前市面上见到的无非是 QQ 小
冰、微信小冰以及各大平台拥有的一些功能低级化机器人,这些机器
人虽然能够实现跟人们交流,但是能够交流的能力十分有限。存在的
最大问题有两点,一是经常会出现答非所问的情况,机器人只能根据
自己的知识图谱去检索答案,很有可能并未找到合适的答案,这要从
算法方面加以改进;二是关于机器人的多级问答功能,目前的机器人
大多只能问一句答一句,很少根据上下文的意思来实现衔接,这也是
造成机器人答非所问十分重要的原因。
可以预见,未来的人工智能必然是互联网时代的大势所趋。2017
年,中国就发布了“下一代人工智能发展计划”,计划最终 2030 年
成为人工智能领域的全球领导者。校园信息自动问答方面研究的缺少,
也给本次论文设计提供了很大的研究空间。
四、 毕业论文(设计)的主要内容、研究方法、技术路线及
可行性分析
主要内容:基于知识图谱的校园信息自动问答机器人研究
通过知识图谱的构建,将大量高校相关信息导入该知识图谱。然
后通过有监督的机器学习,通过大量训练集对机器人进行深度学习研
究,一方面解析人们提出的与高校有关的问题,另一方面对从知识图
谱中检索并由此经过自然语言分析出来的答案进行过滤,从而得出人
们需要的答案。并且能够实现上下文式的高级解答问句分析。
研究的机器人类型:基于校园信息自动问答的专业领域机器、多轮对
话、检索式对话聊天、被动聊天、文字识别机器人
研究方法:有监督的机器学习
通过大量训练集进行机器学习,然后不断与正确结果进行比较,
不断改进模型,从而提高机器学习之后的回答问题正确率。
技术路线:1)知识图谱:网络文本资源获取、机器学习方法、大规
模语义计算和推理、知识表示体系、知识库构建;
2)问句解析:中文分词、词性标注、实体标注、概念类别标注、
句法分析、语义分析、逻辑结构标注、指代消解、关联关系标注、问
句分类(简单问句还是复杂问句、实体型还是段落型还是篇章级问题)、
答案类别确定;
3)答案生成与过滤:候选答案抽取、关系推演(并列关系还是递
进关系还是因果关系)、吻合程度判断、噪声过滤
可行性分析:通过爬虫将各大高校的相关信息爬取下来,整理成知识
库,对其进行实体识别以及关系抽取,构建成知识图谱,随后利用该
知识图谱通过自然语言学习让机器人进行有监督的深度学习,反复的
训练之后,就能实现基于知识图谱的校园信息自动问答机器人研究。
评价指标:人工平均(通过对大量测试对话,由人工评价来确定回答
问题的正确与否)
五、 毕业论文(设计)的进度安排
11、12 月由于要忙于考研,暂时不针对毕业论文安排相关进度,
考研完成后,当立即开始着手研究。目前大致进度规划如下:
12 月底:进行毕业论文有关基础知识的学习;
1 月:对高校信息进行汇总,构建出知识图谱模型框架;
2 月:构建出基本的基于知识图谱的校园信息自动问答机器人研
究模型,能够简单回答大部分问题;
3 月:对自动问答机器人进行优化,能满足结合上下文式的回答
问题要求。
六、 毕业论文(设计)的主要参考文献
[1] Marty Swant, "Google's new voice-activted analytics fue ed
by A! will simplify data queres." AdWeek,july18.2017
[2]吴友政,赵军,段湘煌,等.问答式检索技术及评测研究综述[I].
中文信息学报,2012(10)
[3] Burke RDHammond K J, Kulyukin. Question answerin
g from frequently asked question
files:cxperiences with the FAQ finder system p[J] AI
Magazine, 1997(18):57-66
[4]钟义信,中国人工智能进展[M]。北京:北京邮电大学出版社,
2001: 1129-1132.[5] TREC(Text REtrcival Conference)官方
网站. http://trec.nist.gov/, 2014.[6] Askjceves 官方网
站,htp://www.askjeeves.com/,2016.
[5] http/ww ai mit edu/projects/infolab/. 2017.
[6] Dell Zhang, Wee Sun Lee. A Web-based Question
Answeringg System[C]// The SMA Annual
Symposium, Singa Pore, 2003.
[7] Answer Bus 官方网站. http://www .answerbus com/,
2012.
[8]Lide Wu et al. FDU at TREC-10: Filtering,QA,
Web and Video Tasks[CV/ l0th Text
REtrieval Coference, Gaithersburg, USA, Nov. 2001.
[9]杨理想,面向特定领域的问答系统及其在 NAO 机器人平台上的实
现[D].南京大学,2015.
[10]呼大为,陈恩红,刘文印,即时交互式问答系统的设计与实现[J].
小型微型计算机系统,2009, 30(9):1761-1766.
[11]魏楚元,湛强,樊孝忠,等.融合事件信息的中文间答系统问题语
义表征[J].中文信息学报, 2015, 29(1):146-154.
[12] Aric jenkins, 'Why Canada believes it can lead gobal Al
innovation," Forrune. October 17,2018.