北京邮电大学硕士学位论文中文信息抽取关键技术研究与实现姓名:杨永贵申请学位级别:硕士专业:信号与信息处理指导教师:钟义信20080225
北京邮电大学硕士研究生学位论文中文信息抽取关键技术研究与实现摘要随着互联网等新兴媒体的迅猛发展,如何从海量电子文档中及时准确地找到需要的信息已经成为一个亟待解决的问题,信息抽取正是在这样的背景下产生并发展起来的。本文对中文信息抽取的几个关键技术进行了研究,设计实现了多个面向不同领域的信息抽取实验系统,并对信息抽取在信息内容安全领域的应用进行了初步探索。论文的主要研究成果如下:1.设计实现了一种自底向上的有监督机器学习算法,不仅能较准确地完成规则的自动提取,还能较好地实现领域间的移植。在此基础上,设计实现了两个实验系统:财经领域公司人事变动新闻的信息抽取实验系统和移动赛事新闻点播系统。实验结果表明,规则提取算法对两个系统都是有效的。本文还探索了信息抽取与移动终端技术的结合,移动赛事新闻点播系统表明,“信息抽取+短信息"的智能信息服务模式是完全可行的。2.采用隐马尔科夫模型对体育赛事新闻文本进行抽取,设计并实现了实验系统三。并在统计方法的基础上加入了规则的方法,通过两种方式的结合,提高信息抽取性能。实验结果表明,这种统计与规则相结合的中文信息抽取方式取得了比较令人满意的效果。3.在体育赛事新闻领域对命名实体识别进行了重点研究,通过基于规则的方法实现了对赛事名称、比赛结果等命名实体较好地识别。4.探索了信息抽取在信息内容安全领域的应用。针对中文手机垃圾短信过滤任务,提出了一种规则和统计相结合的倾向性判断模型。在此基础上,设计实现了中文短信内容监控实验系统,并取得了良好的实验结果。最后,对本文中文信息抽取关键技术的研究与实现进行了总结,并展望了进一步研究的方向和思路。关键词:信息抽取机器学习命名实体识别隐马尔科夫模型
北京邮电大学硕士研究生学位论文Abs仃actRESEARCHANDREALIZATl0NONTHEKEYTECHNOLOGIESOFCHINESEINFORM姗0NE)汀RACTl0NABSTRACTWiththerapiddevelopmentofnewmedias,suchasIntemet,howtofindtheusefulinformationrapidlyandaccuratelyfromatremendousamountofelectronicdocumentshasbecomeaburningproblem,itisinsuchabackgroundthatinformationextractionwasbomanddeveloped.ThisthesisworksonsomekeytechnologiesofChineseinformationextraction,designsandimplementsseveraltestsystems,andexplorestheapplicationsofinformationextractionininformationcontentsecurity.Themaincontributionsofthisthesisinclude:1.Asupervisedlearningalgorithmwithbottom-upstrategyisproposed,itcannotonlygeneraterulesautomaticallyandaccurately,butalsocantransplantacrossdomainsd.Basedonthisalgorithm,twotestsystemsaredesignedandrealized:corporation’Spersonnelchangesnewsinformationextractiontestsysteminfinanceandeconomicsdomainandmobilegamenewsorderingtestsystem.Experimentalresultsshowthatthealgorithmiseffectivetothebothsystems.Inaddition,Thecombinationofinformationextractionandthetechnologyofmovableterminationisexplored,themobilegamenewsorderingtestsystemshowsthattheintelligentinformationservicemode,“information+SMS",iSfeasible.2.HiddenMarkovModeI(HMM)isusedtoextractsportsgamenews,whichthethirdexperimentalsystemisbasedon.Arules.basedmethodisalsojoined,itbringsimprovementoftheperformanceofinformationextraction.Theexperimentalresultsshowthatthecombinationofstatistics-basedandrules—basedmethodsiSsastisfactory.ⅡI
3.Namedentityrecognitioninrules-basedmethodisusedandperformtheresultsofmatches,etc.sportsgamenewsisdressed.Awellonrecognitionofgamenames,4.Applicationofinformationextractionininformationcontentsecurityisexplored,ForfilteringtheChineseSMSspam,anorientationjudgementmodelcombiningrules-basedmethodandstatistics。basedmethodisproposed.AChineseSMScontentmonitoringtestsystemisdesignedandrealized,experimentsshowgoodresults.rn…●一一lneIlnalpartsummarizestheworkinthethesis,anddiscussestheprospectsandthefuturedirectionsonChineseinformationextraction.KEYWORDS:informationextractionmachinelearningnamedentityrecognitionhiddenmarkovmodel(HMM)IV
独创性(或创新性)声明本人声明所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京邮电大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。申请学位论文与资料若有不实之处,本人签名:超越本人承担一切相关责任。日期:型量:i:堑:关于论文使用授权的说明学位论文作者完全了解北京邮电大学有关保留和使用学位论文的规定,即:研究生在校攻读学位期间论文工作的知识产权单位属北京邮电大学。学校有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许学位论文被查阅和借阅;学校可以公布学位论文的全部或部分内容,可以允许采用影印、缩印或其它复制手段保存、汇编学位论文。(保密的学位论文在解密后遵守此规定)保密论文注释:本学位论文属于保密在一年解密后适用本授权书。非保密论文注释:本学位论文不属于保密范围,适用本授权书。本人签名:导师签名:日期:日期:
北京邮电大学硕士研究生学位论文第一章概述1.1选题背景第一章概述随着计算机的普及和互联网的迅猛发展,人们获取信息的手段发生了巨大的改变,从原来单一地依靠报纸、电视等传统媒体发展成为主要依靠网络等新兴媒体。面对网络上每天出现的海量级的电子文档,如何从中及时准确地找到自己需要的信息已经成为一个亟待解决的问题。信息抽取正是在这样的背景下产生并发展起来的。目前,信息抽取的主要任务是将大量无序的信息及时、准确地进行整理,提取出特定的事实,组织成便于查询检索的形式。例如,信息抽取系统可以从财经新闻中抽取出公司人事变动的情况:公司名、职位名、离职者、继任者等;从体育新闻中提取出比赛结果:赛事名称、比赛项目、球队名称、比赛成绩等等。抽取结果以结构化的形式描述,保存在数据库中,供用户查询和进一步分析使用。广义上讲Ⅲ,信息抽取的研究对象包括电子文本、语音、图片、视频等,而狭义的信息抽取研究则主要针对的是自然语言文本。本文研究的主要就是狭义的信息抽取。狭义信息抽取的研究对象主要分为三类阻1:结构化文本(StructuredText):按照一定格式严格生成的文本,如数据库中的文本信息等。对结构化文本的信息抽取非常容易,准确率也非常高。自由文本(FreeText):文本中文字合乎于自然语法规则的文本,如新闻报道、科技文献等。半结构化文本(Semi.structuredText):介于结构化文本和自由文本之间,文本文字不完全符合自然语法规则的文本。半结构化文本一般比较简短,没有固定的形式,如分析报表、简短广告文等。信息抽取和信息检索是密切相关的,两者既有互补,又存在明显的差异。为了处理海量文本,信息抽取系统通常以信息检索系统(如文本过滤)的输出作为输入;而信息抽取技术又可以用来提高信息检索系统的性能。二者的差异主要体现在以下三方面n】:3
北京邮电大学硕士研究生学位论文第一章概述(1)功能不同:信息检索系统主要是从大量的文档集合中找到与用户需求相关的文档列表;而信息抽取系统则旨在从文本中直接获得用户感兴趣的事实信息。(2)处理技术不同:信息检索系统通常利用统计及关键词匹配等技术,把文本看成词的集合,不需要对文本进行深入分析理解;而信息抽取往往要借助自然语言处理技术,通过对文本中的句子以及篇章进行分析处理后才能完成。(3)适用领域不同:信息检索系统通常是领域无关的,而信息抽取系统则是领域相关的,只能抽取系统预先设定好的有限种类的事实信息。多数信息抽取的研究是从以规则为基础的计算语言学和自然语言处理技术发源的,而信息检索则更多地受到信息理论、概率理论和统计学的影响。同时,本文的研究得到了以下课题的支持:北京邮电大学信息工程学院青年教师科研启动基金一“面向奥运的移动赛事新闻点播系统的研究",国家242信息安全计划项目一“基于CIM.NLU和MAS的“群发信息”内容安全监控系统’’。1.2信息抽取的发展和研究成果从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期n3,这被看作是信息抽取技术的初始研究。从20世纪80年代末开始,信息抽取研究蓬勃开展起来,这主要得益于两个因素口1:一是在线和离线文本数量的几何级增加,二是“消息理解会议”(MUC,MessageUnderstandingConference)对该领域的关注和推动。信息抽取的前身是文本理解。1。人工智能研究者一直致力于建造能把握整篇文档的精确内容的系统。这些系统通常只在很窄的知识领域范围内运行良好,向其他新领域移植的性能却很差。20世纪80年代末开始,美国政府一直支持MUC对信息抽取技术进行评测。各届MUC吸引了许多来自不同学术机构和业界实验室的研究者参加信息抽取系统竞赛。每个参加单位根据预定的知识领域,开发一个信息抽取系统,然后用该系统处理相同的文档库。最后用一个官方的评分系统对结果进行打分。回顾历次MUC会议Ⅲ,可以清楚地看到信息抽取技术发展的历程。首届MUC会议(MUC-I)于1987年5月举行,这是一次探索性的会议,没有明确的任务定义,也没有制定评测标准,总共有6个系统参加,所处理的文本是海军军事情报,每个系统的输出格式都不一样。MUC-2于1989年5月举行,共有8个系统参加,处理的文本类型与MUC一1—4
北京邮电大学硕士研究生学位论文第一章概述样。MUC-2开始有了明确的任务定义,规定了模板以及槽的填充规则,抽取任务被明确为一个模板填充的过程。MUC-3予1991年5月举行,共有15个系统参加,抽取任务是从新闻报告中抽取拉丁美洲恐怖事件的信息,定义的抽取模板由18个槽组成。从MUC-3开始引入正式的评测标准,其中借用了信息检索领域采用的一些概念,如召回率和准确率等。MUC-4于1992年6月举行,共有17个系统参加,任务与MUC-3一样,仍然是从新闻报告中抽取恐怖事件信息。但抽取模板变得更复杂了,总共由24个槽组成。MUC-5于1993年8月举行,共有17个系统参加。此次会议设计了两个目标场景:金融领域中的公司合资情况、微电子技术领域中四种芯片制造处理技术的进展情况。除英语外,MUC-5还对日语信息抽取系统进行了测试。在本次会议上,组织者尝试采用平均填充错误率(ERR,ErrorPerResponseFill)作为主要评价指标。MUC-5的一个重要创新是引入了嵌套的模板结构。信息抽取模板不再是扁平结构的单个模板,而是借鉴面向对象和框架知识表示的思想,由多个子模板组成。MUC-6于1995年9月举行,训练时的目标场景是劳动争议的协商情况,测试时的目标场景是公司管理人员的职务变动情况,共有16家单位参加了这次会议。MUC一6的评测更为细致,强调系统的可移植性以及对文本的深层理解能力。除了原有的场景模板(ScenarioTemplates)填充任务外,又引入三个新的评测任务:命名实体(NamedEntity)识别、共指(Coreference)关系确定、模板元素(TemplateElement)填充等。MUC-7于1998年4月举行,训练时的目标场景是飞机失事事件,测试时的目标场景是航天器(火箭/导弹)发射事件。MUC一7新增了一项新任务一模板关系任务,意在确定实体之间与特定领域无关的关系。共有18家单位参加了MUC一7评测。值得注意的是,在MUC-6和MUC-7中开发者只允许用四周的时间进行系统的移植,而在先前的评测中常常允许有6-9个月的移植时间。MUC系列会议对信息抽取这一研究方向的确立和发展起到了巨大的推动作用。MUC定义的信息抽取任务的各种规范以及确立的评价体系已经成为信息抽取研究事实上的标准。可以说,正是MUC系列会议使信息抽取发展成为自然语言处理领域一个重要分支,并一直推动这一领域的研究向前发展。随着MUC系列会议的停办,美国国家标准技术研究院(NIST)组织了自动内容抽取(ACE,AutomaticContentExtraction)评测。ACE评测1999年7月开始酝酿,2000年12月正式开始启动,迄今已经举办过多次评测,其研究的主要内容是自动抽取新闻语料中出现的实体、关系、事件等内容。中文信息抽取的研究起步较晚,目前很多研究都集中在中文命名实体的识别和其5