logo资料库

基于规则推理引擎的实体关系抽取研究_薛丽娟.pdf

第1页 / 共10页
第2页 / 共10页
第3页 / 共10页
第4页 / 共10页
第5页 / 共10页
第6页 / 共10页
第7页 / 共10页
第8页 / 共10页
资料共10页,剩余部分请下载后查看
ISSN 1673-9418 CODEN JKYTA8 Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(09)-1310-10 doi: 10.3778/j.issn.1673-9418.1509086 E-mail: fcst@vip.163.com http://www.ceaj.org Tel: +86-10-89056056 基于规则推理引擎的实体关系抽取研究* 薛丽娟,席梦隆,王梦婕,王昊奋,阮 彤+ 华东理工大学 信息科学与工程学院,上海 200237 Entity Relation Extraction Based on Rule Inference Engine* XUE Lijuan, XI Menglong, WANG Mengjie, WANG Haofen, RUAN Tong+ College of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China + Corresponding author: E-mail: ruantong@ecust.edu.cn XUE Lijuan, XI Menglong, WANG Mengjie, et al. Entity relation extraction based on rule inference engine. Journal of Frontiers of Computer Science and Technology, 2016, 10(9):1310-1319. Abstract: Entity relation extraction refers to extract semantic relationships between entities from unstructured natural language text and express in a structured form. Traditional entity relation extraction methods only focus on a particular type of data source, and label large numbers of training data by humans to train extraction model. Manually labeling training data are labor-intensive and time consuming. So this paper proposes a method integrating diversity data sources, and combines rule-based inference engine to discover relation triples. More precisely, integrating structured and un- structured data sources, and in the case of having small amount of seeds provided by structured data, a large number of entity relationships are reasoned by rule-based inference engine. The newly entity relationships are fed as seeds to dis- tantly supervise the learning process to extract entity relationships from unstructured text. The final entity relationships are obtained through multiple iterations. The experimental results show the effectiveness of the proposed method. Key words: relation extraction; relation reasoning; distant supervision; rule-based inference engine 摘 要:实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系,并以结构化的形式表示出 来。传统的实体关系抽取方法只注重一种特定类型的数据源,并需要标注大量的训练数据来训练抽取模型, * The Software and Integrated Circuit Industry Development Special Funds of Shanghai Economic and Information Commission under Grant No. 140304 (上海市经信委“软件和集成电路产业发展专项资金”). Received 2015-08, Accepted 2015-10. CNKI 网络优先出版: 2015-10-20, http://www.cnki.net/kcms/detail/11.5602.TP.20151020.1042.016.html
薛丽娟 等:基于规则推理引擎的实体关系抽取研究 1311 人工成本高。因此提出了一种综合多种数据源,并结合规则推理引擎的实体关系抽取方法,准确地说就是综 合结构化和非结构化两种数据源,在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关 系。然后使用远程监督学习方法从无结构的文本中抽取实体关系,通过多次迭代获得最终的实体关系。实验 结果证明了该方法的有效性。 关键词:关系抽取;关系推理;远程监督;规则推理引擎 文献标志码:A 中图分类号:TP391 1 引言 实体关系抽取是信息抽取的子任务,其主要目 的是把无结构的自然语言文本中所蕴含的实体之间 的语义关系抽取出来,并以结构化的形式表示出来, 供用户查询和分析使用。远程监督学习(distant super- vision learning)是训练大规模关系抽取器的主要方法。 传统的实体关系抽取方法需要针对预先定义好 的每一类实体关系人工标注大量的训练语料,然后 利用机器学习的方法训练分类器进行新的实体关系 识别。人工标注大量的训练数据是非常耗时和耗力 的,因此本文将实体关系抽取和实体关系推理结合 起来,只需要在少量训练数据的情况下就可以训练 出大规模关系抽取器。另外传统的实体关系抽取只 注重一种特定类型的数据源,怎样充分利用不同的 数据源并没有得到充分研究。本文提出的方法将综 合多种数据源,不仅从无结构的文本中可以抽取出 实体关系,从半结构的实体属性中也可以抽取出实 体关系。 本文主要从百度知识图谱大赛提供的数据文件 中抽取人物实体之间的关系,针对于此,提出了一种 新颖的基于规则推理引擎的实体关系抽取方法。本 文的主要贡献在于: (1)综合多种数据源抽取实体关系,不仅可以从 无结构文本中抽取出实体关系,从半结构的实体属 性中也可以抽取出实体关系。 (2)将关系抽取和关系推理结合起来增加训练 数据的数量。原始的训练数据比较稀疏,使用规则 推理引擎推理出一些关系作为训练数据,用来帮助 从无结构文本中抽取关系三元组,将从无结构文本 中抽取出的高置信度的关系三元组再加入到种子集 中,因此整个过程是不断迭代进行的,在每一轮迭代 中,抽取出的高置信度的关系三元组将作为新的种子。 (3)本文的实体关系抽取主要是人物关系抽取, 关系抽取时将实体本身固有的属性作为特征将会大 大提高关系抽取的准确率,比如实体的性别属性以 及实体的姓名特征。 2 相关工作 实体关系抽取是信息抽取的一个应用,在过去 几年里得到了广泛的研究。封装器归纳法(wrapper induction)是一种用于从半结构化数据中抽取信息的 方法。Multi-view learner[1]和 Vertex![2]使用监督学习 方法从手动标注的数据中学习抽取规则。信息抽取 的另一种方法就是从文本中抽取信息,Snowball[3]和 TextRunner[4]就是典型的例子。Snowball 的输入是语 料和种子集,通过总结语料中种子出现的模式学习 抽 取 模 式(extraction patterns)。 Banko 等 人 构 建 的 TextRunner 系统在没有事先定义规则和手动标注种 子的情况下从语料中学习所有的关系。Reverb[5]使用 句法分析确定关系短语,将出现在两个名词短语之 间的动词短语作为关系短语。Wu 等人[6]的 WOE 系 统使用种子式扩展方法从 Wikipedia 的 Infoboxes 中 学习抽取 patterns。Reverb 和 WOE 只能抽取出所有 关系短语是动词的关系,同时它们也忽略了上下文, 因此抽取的关系三元组并不是事实。为了改善这些 缺陷,Mausam 等人[7]提出了 OLLIE 系统,OLLIE 可以 抽取出关系短语不是动词的短语,并且可以抽取出 使 关 系 成 立 的 条 件 。 TextRunner、Reverb、WOE 和 OLLIE 都是在没有事先定义规则和没有事先给出目 标关系的情况下抽取所有的关系,因此这些方法都 属 于 开 放 域 关 系 抽 取(open information extraction, Open IE)。本文需要从文本中学习出给定的目标关
1312 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2016, 10(9) 系,这是本文工作和 Open IE 方法很大不同的地方。 NELL[8]、SOFIE[9]和 PROSPERA[10]是需要给定目 标类别和关系的信息抽取工具。NELL 的输入数据 由包含几百个类别和关系的初始本体以及每个类别 和关系的少量实例组成。SOFIE 通过将学习得到的 pattern 和文本进行匹配,从文本中抽取本体事实,并 将这些事实链接到本体知识库中,它在现存的知识 库上做本体推理,目的是对词义进行消歧。因此 SOFIE 是一个将模式匹配、词义消歧和本体推理集合 在一起的系统。Nakashole 等人提出的 PROSPERA 对 SOFIE 进行了改善。PROSPERA 对 pattern 做 N- gram,目 的 是 对 pattern 进 行 泛 化 以 增 加 召 回 率 。 KYLIN[11]使用迭代的方法构造训练数据,用构造的训 练数据学习两种分类器,一种分类器用于识别,另一 种分类器用于过滤。KOG[12]使用机器学习中的支持 向量机(support vector machine, SVM)和马尔可夫逻 辑网络(Markov logic network,MLN)中联合推理的 方法将 Wikipedia 的 Infoboxes 和 WordNet 结合起来 建立了一个丰富的本体。NELL、SOFIE和PROSPERA 都需要手动定义一些规则来帮助 pattern 的学习,而 在本文的工作中并不需要手动地定义规则。 信息抽取的一个趋势是从发布在网上的数据中 抽取信息,包括网页、开放链接数据和动态网站上的 列表和表格。Gentile 等人[13]提出多策略学习的方法, 该方法将文本抽取和包装器归纳学习结合起来,从 列表、表格和网页中抽取知识。虽然这种方法看起 来似乎很好,但是在他们的文章中并没有清楚地说 明实验评估结果。另一方面,远程监督是利用不同 种类数据源之间冗余信息的有效方法,文献[14-15] 就是使用远程监督学习的方法抽取关系。 3 整体思想 3.1 问题定义 本文的语料集 S 由实体描述属性中的分句构成, ={ , 每个分句至少包含两个实体。本文的任务可以描述 r2 r1 为 :给 定 关 系 类 型 体 系 R ,实 体 集 合 )| r E 以及每个实体 e 的全部属性和少量的 实体关系种子集合 Seed r e ,对于 ,⋯, ∈ ={ , e1 ,⋯, ={( } , ∈ e n r , e2 } } m i e i k j k R e i e j E ∈ ∀ s S ,给定句子 S 中的两个实体 e ∈ ∈ , E i e j E ,预测 e i 、e j 在 S 中的关系对应于集合 R 中的一个或多个 r 。例如,给定句子“姚沁蕾是篮球明星姚明的女儿” k 以及实体“姚明”和“姚沁蕾”,本文的任务就是预测 出<姚明,姚沁蕾>在句子 S 中是“女儿”关系。分析 了语料库中的数据之后可以得到以下的观察: (1)可以从实体的一些属性中抽取出实体关系, 比如从实体的“parent”属性中可以抽取出“父母”关系。 (2)现有的规则推理引擎可以推理出新的实体 关系。可以将实体关系文件给出的实体关系以及从 实体属性中抽取的实体关系作为输入,用规则推理 引擎推理出更多的实体关系。在本文中,规则推理 引擎还需要实体性别作为输入。 (3)一些关系类型之间具有层次关系,如“父母” 关系和“父亲”、“母亲”这两个关系具有层次关系。 确定了“父母”关系后,可以根据实体的性别进一步 确定是“父亲”关系还是“母亲”关系,以<姚沁蕾 父 母 姚明>为例,如果可以确定“姚明”的性别为“男”, 那么可以将上述关系三元组细化为<姚沁蕾 父亲 姚 明>。因此识别出实体的性别有助于关系的抽取。 3.2 整体流程 本文的目标是找到一种识别语料库中任意实体 对之间关系的方法。实体关系文件已经给出少量的 实体关系作为种子,但是这些种子对于训练抽取器 是远远不够的。根据 3.1 节的观察,可以通过两种途 径扩充种子的数量:一种是从实体的属性中抽取实 体关系;另一种是用规则推理引擎推理出新的实体 关系。将以上实体关系作为种子帮助从实体的“des- cription”属性中抽取实体关系。实体的“description” 属性可以看作是一种无结构的文本,因此整个过程 就是远程监督学习的过程。本文的工作主要分为 3 步:实体性别识别、规则引擎推理和实体关系抽取。 整体流程如图 1 所示。 4 算法设计 4.1 实体性别识别 通过观察,实体的性别可以通过 3 种途径获得: (1)从实体的“gender”属性中识别实体的性别。
薛丽娟 等:基于规则推理引擎的实体关系抽取研究 1313 Fig.1 Overall workflow of algorithm 图 1 算法整体流程图 对于一些实体,它们本身包含“gender”属性,因此可 以直接确定这些实体的属性。 (2)使用一些预先定义的启发式规则从实体的 “description”属性中识别实体的性别。实体的“des- cription”属性由一个或多个分句组成,如果“descrip- tion”属性的第一个分句包含“,男,”或者“,女,”,那 么就可以直接确定该实体的性别。 (3)从实体关系文件的三元组中识别实体的性 别。部分关系三元组中的关系谓词和性别有关,比 如三元组<姚明 女儿 姚沁蕾>,根据关系谓词“女儿” 可以确定“姚沁蕾”的性别为“女”。 以上 3 条观察可以识别一部分实体的性别,但是 大部分实体的性别还是无法确定。因为使用上述 3 条观察识别出的实体性别准确率很高,所以把这些 实体作为训练数据,实体性别识别任务就可以视为 一个二分类问题,使用支持向量机为分类模型。 使用分类法识别实体性别的过程如下: (1)特征抽取 高频词作为特征:用 S 表示训练数据中所有实体 的“description”属性的分句集合,使用 Stanford Parser 对 S 分词,选择出现次数超过 50 次的词为高频词。 性 和 女 性 的 身 高 、体 重 具 有 很 明 显 的 差 别 ,所 以 “weight”和“height”属 性 对 分 类 具 有 很 大 的 贡 献 。 “weight”和“height”的属性值经过标准化和离散化之 后作为特征值。 建立姓名库作为特征:通常可以根据姓名中的 某些字确定实体的性别,选择经常出现在男性姓名 中的字建立一个男性姓名库,选择经常出现在女性 姓名中的字建立一个女性姓名库,然后把男性姓名 库和女性姓名库分别作为特征。 (2)特征选择 并不是所有的特征都对分类有贡献,在分类之 前需要进行特征选择,本文使用信息增益选择对分 类有贡献的特征。 (3)训练分类模型 使用训练数据训练 SVM 分类模型,用训练好的 分类模型对性别未知的实体进行分类。 4.2 规则引擎推理 规则推理引擎通常有规则和事实两个输入,目 的是把已知的事实按照一定的规则推理出新的事 实。在本文中,事实是关系三元组,根据关系谓词的 性质,人工总结出如下 8 条规则。 实体的“weight”和“heigh”属性作为特征:因为男 (1)关系谓词具有反函数性,则存在规则:
1314 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2016, 10(9) ⇔ ⇔ ⇔ ⇒ 如: ⇒ (2)关系谓词加条件后具有反函数性,则存在规则: ⇒ [with conditions] 如: [e1(女)] (3)关系谓词具有对称性,则存在规则: 如: ⇒ (4)关系谓词加条件后具有对称性,则存在规则: ⇒ [with conditions] 如: [e1(男)] ⇒ (5)关系谓词具有传递性,则存在规则: and 如: and ⋯ (6)关系谓词具有多重复合关系,则存在规则: and and 1 rn en> [with conditions] 如: and ⇒ (7)关系谓词具有层次性,则存在规则: ⇒ [with conditions] 如: [e2(男)] (上层向 - and ⇒ 下层细分) ⇒ ⇒ ¬ ¬ (下层向上层扩展) ⇒ (8)关系谓词具有互斥性,则存在规则: 如: 从实体的“parent”、“spouse”属性中可以抽取出 实体关系,将抽取出的实体关系和关系文件中给出 的实体关系作为种子用于规则推理引擎的推理,规 则推理引擎推理出的实体关系加入到种子集中。本 文使用 Drools 和 Tuffy 两种规则推理引擎。 4.3 实体关系抽取 实体的“description”属性由一个或多个句子组 成,因此可以将“description”属性看作是无结构的文 本。使用种子数据从实体的“description”属性中抽取 出至少包含一个实体且该实体不是当前实体的分 句,对于只包含一个实体的分句,使用简单的规则加 上当前实体,这样就得到训练数据。本文从实体的 上下文、句法、词性等信息中抽取特征训练分类器, 从而完成关系抽取任务。每一种关系的抽取都视为 一个二分类问题,为每一种关系训练一个分类模 型。为某种关系训练分类模型时,当前关系作为正 例,其他所有关系作为负例。 4.3.1 最短依赖路径作为抽取特征 使用 Stanford Parser 对分句做依存关系分析,从 产生的依赖路径中学习出对关系抽取有用的 pat- terns。以下面的句子为例: 姚沁蕾是篮球明星姚明的女儿。 产生的依赖路径为:nsubj(女儿-7,姚沁蕾-1), cop(女儿-7,是-2),nn(明星-4,篮球-3),nn(女儿-7, 明 星 -4),assmod(女 儿 -7,姚 明 -5),case(姚 明 -5, 的-6),root(ROOT-0,女儿-7)。这些依赖路径形成一 个有向图,每一个词语是图的一个顶点 v V , E 是依赖关系集。对于任意两个顶点,如“姚明”和 “姚沁蕾”,使用最短连接路径表示两者之间可能存 在的关系: ∈ 姚沁蕾 ¾ ®¾¾¾¾ 这种路径叫作核心路径,可以看出核心路径对 女儿 ¬ ¾¾¾¾¾ 姚明 预测两个实体之间的关系是很有用的。 为了解决数据稀疏的问题,本文对核心路径进 行泛化,用词性标注取代核心路径中的词语。同时, 所有的专有名词都抽象为“NN”,所有的复合名词(如 “NN nn NN”)都抽象为“NN”。以上述核心路径为 例,泛化后的路径为:NN ¾ ®¾¾nsubj NN ¬ ¾¾¾¾¾assmod NN,把 这种泛化后的核心路径作为 pattern。 由于产生的 pattern 比较稀疏,需要对 pattern 进 行合并。pattern 的合并分两种情况: (1)对 pattern 在一定的编辑范围内进行合并。 如果一个 pattern 和另一个 pattern 只有一个词性或依 赖关系不同,就把这两个 pattern 合并成“或”的关 系。比如:pattern1 为“prnmod VV dobj NN dep”,pat- tern2 为“prnmod VV dobj NN assmod”,这两个 pattern 只有一个依赖关系不同,可以合并成“prnmod VV dobj NN dep|assmod”。 (2)对 pattern 进行规约处理。如果一个 pattern 是另一个 pattern 的一部分,就把这两个 pattern 合并
薛丽娟 等:基于规则推理引擎的实体关系抽取研究 1315 成父子关系。比如:pattern1 为“nsubj VV ccomp VV nsubj”,pattern2 为“nsubj VV ccomp VV nsubj NN conj”,pattern1 是 子 pattern,pattern2 为 父 pattern,父 pattern 可以写成“子 pattern*”。 4.3.2 关键词作为抽取特征 分句中的关键词对确定实体之间的关系非常有 用。当两个分句的句式结构相同时就需要通过关键 词语来确定实体之间的关系,以下面两个句子为例: 姚沁蕾是篮球明星姚明的女儿。 张慕童是港星张智霖的儿子。 它们泛化后的核心路径都为:NN ¾ ®¾¾ NN NN,这时就需要根据关键词语“女儿”和“儿 nsubj assmod ¬ ¾¾¾¾¾ 子”来确定两对实体之间的关系。 关键词作为特征的表示形式为:“W1|W2|W3| W4|W5”,其中 W1、W2、W3、W4 和 W5 表示同一个意 思的词语,“|”表示或关系。使用 Fudan Natural Lan- guage Process 中的关键词抽取方法抽取出每个分句 的关键词,抽取出的关键词需要经过词义统一和词 义扩展两步处理。词义统一是为了使表示同一个意 思的词语为同一维特征,如“儿子”和“独子”表示同 一个意思;词义扩展是为了使在训练数据中没有出 现但是和抽取的关键词表示同一个意思的词语为同 一维特征,如从训练数据中抽取的关键词没有“次 子”一词,但“次子”和“儿子”、“独子”表示同一个意 思。经过词义统一和词义扩展之后,表示“儿子”关 系的这一维特征为“儿子|长子|独子|次子|幼子”。 关系集 R 中的部分关系和实体的性别有关,如 “父亲”、“女儿”等关系。实体本身具有的属性对关 系抽取很有帮助,因此对于和性别有关的关系,抽取 特征除了最短依赖路径和关键词之外还包括实体的 性别。本文对“父亲”关系增加了一维其独有的特 征,就是判断两个实体的“姓”是否相同,如果相同就 置这一维特征为“1”,否则为“0”。 并不是所有的特征都对分类有贡献,因此在训 练分类器之前要对特征进行特征选择,本文选用信 息增益作为特征选择方法。虽然本文使用的方法是 为每一种关系都训练一个分类模型,但是所有的分 类模型包含的特征类型都相同。 5 实验分析 5.1 实验数据与设置 , ∈ ∈ 本文所用的语料库 Corpus 是百度知识图谱大赛 提供的 3 个数据文件:实体属性文件、实体关系文件、 实体模式文件。实体属性文件(entity)共包含 11 445 个实体,描述的是每个实体所包含的属性以及对应 的 属 性 值 ,实 体 属 性 主 要 包 括“name”、“sid”、 “weight”、“height”、“description”、“parent”等 属 性 。 , 实体关系文件(relation)用关系三元组表示两 个实体之间的关系,其中 e1 R ,本文所有的 关系都是人物关系。实体关系文件中共有 964 条关系 三元组,其中包含 129 个关系谓词,覆盖 1 322 个实体。 实体模式文件(schema)定义每一类实体包含的属性。 虽然本文方法是半监督的,但是需要标注数据 去评估抽取质量。本文使用准确率 Precision 和召回 率 Recall 作为评价标准,若 A 表示抽取出的正确的关 系三元组,B 表示抽取出的错误的关系三元组,C 表 示没有抽取出的关系三元组,则准确率和召回率的 定义分别如下: e2 E r Precision Recall = , + A A B = + A A C 5.2 实验结果与分析 5.2.1 实体性别识别的结果分析 实 体 性 别 识 别 时 所 用 的 特 征 包 括 高 频 词 (words)、“height”和“weight”属性(attributes)、男女姓 名库(names)3 类,每一类特征对实验结果的影响如 图 2(a)所示。本文在性别识别时选择支持向量机、 决策树(decision tree,DT)、朴素贝叶斯(Naïve Bayes, NB)和逻辑回归(logistic regression,LR)4 种不同的 学习算法训练分类模型,对这些模型进行比较,选择 识别准确率最高的模型作为最终的分类模型。不同 学习算法的比较结果如图 2(b)所示。 5.2.2 实体关系抽取的结果分析 本文对“妻子”、“师生”、“祖孙”、“兄弟”和“父 亲”5 种关系进行了实验。根据 4.2 节的描述,使用规 则推理引擎对种子关系三元组进行推理以增加种子 的数量,对 Drools 和 Tuffy 两种规则推理引擎的比较 如表 1 所示。由于 Tuffy 执行时把事实存放在关系数
1316 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2016, 10(9) Fig.2 Comparison of different feature combinations and models 图 2 不同特征组合和模型比较 据库中,判断查询通过 SQL 语句实现,由于用到数据 库技术,所需的内存就较小,但是本地 I/O 频繁,导致 运行速度较慢;而 Drools 执行时把事实存放在内存 中,使用 Rete 算法对判断和查询进行优化,因此所需 的内存较大,但是运行速度快。本文选择了 Drools 作 为规则推理引擎。 Table 1 Comparison of rule-based inference engines 表 1 规则推理引擎的比较 规则推 理引擎 Drools Tuffy 推理出 的条数 834 753 正确的 条数 834 731 用时/s 8 71 785 需要内 存/MB 500 100 使用推理前和推理后的种子数据分别进行实 验,这里只使用 NaiveBayes 作为分类器,对抽取结果 的影响如表 2 所示。使用规则推理引擎推理后,种子 数据的数量增加,对于“妻子”一些关系的准确率会 有所降低,但是抽取出的条数会大幅度增多,大大提 高了召回率。 Table 2 Reasoning comparison 表 2 推理前后比较 关系 妻子 师生 祖孙 兄弟 父亲 推理前 推理后 抽取条数 正确条数 抽取条数 正确条数 8 73 58 71 100 8 53 43 50 42 238 333 58 76 203 196 251 43 54 189 本文试图找到最适合的种子数量去学习最佳的 分类模型,这里只使用 Naïve Bayes 分类器,不同数量 的种子对抽取的准确率和召回率的影响分别如图 3 (a)和图 3(b)所示。本文综合考虑准确率和召回率, 在保证有较高准确率的前提下又有较高的召回率。为 每一种关系选择了一个最佳的种子数量,“妻子”、“师 生”、“祖孙”、“兄弟”和“父亲”5种关系的最佳种子数量 分别是50、20、30、30和100。但是在关系文件中5种关 系的种子数都达不到上述标准,因此需要使用规则推 理引擎推理出更多的关系三元组加入到种子集中。 根据 4.3 节的描述,本文对 pattern 特征进行合并 处理,pattern 合并前后的准确率如图 4(a)所示。对关 键词特征进行了合并扩展处理,关键词合并扩展前后 的准确率如图 4(b)所示。可以看出,对 pattern 进行合 并和对关键词进行合并扩展可以提高抽取的准确率。 在对每一种关系进行分类时,本文同样选择了 4 种不同的学习算法 SVM、DT、NB 和 LR 训练分类模 型,不同学习算法对结果的影响如表 3 所示。本文综 合考虑抽取的准确率和召回率为不同的关系选择不 同的分类模型,对于“兄弟”关系,NB 学习算法明显 优于其他学习算法,但对于“祖孙”关系,各种学习算 法没有很大区别。 6 结束语 本文针对传统实体关系抽取需要人工标注大量 数据并只注重一种特定类型的数据源的问题,提出
薛丽娟 等:基于规则推理引擎的实体关系抽取研究 1317 Fig.3 Precision and recall of different seed amount 图 3 不同种子数下的准确率和召回率 Fig.4 Comparison of pattern and keyword 图 4 Pattern 和关键词的比较 Table 3 Comparison for different models 表 3 不同模型的比较 关系 妻子 师生 祖孙 兄弟 父亲 SVM DT NB LR Precision 0.944 0 0.826 5 0.741 4 0.829 5 0.496 1 Recall 0.905 4 0.518 7 0.796 3 0.592 3 0.635 5 Precision 0.939 5 0.826 5 0.741 4 0.837 0 0.376 7 Recall 0.847 2 0.520 6 0.796 3 0.592 3 0.742 1 Precision 0.823 5 0.845 4 0.741 4 0.831 6 0.931 0 Recall 0.970 9 0.501 9 0.796 3 0.607 7 0.931 0 Precision 0.734 3 0.839 7 0.741 4 0.875 0 0.461 9 Recall 0.894 5 0.539 3 0.796 3 0.592 3 0.867 0 了一种基于规则推理引擎的从多种数据源抽取实体 关系的方法。从实体的多种属性中抽取出实体关 系,经规则推理引擎推理出更多的实体关系作为种 子;帮助从无结构的文本中抽取实体关系。本文方 法的优点在于将实体关系推理和实体关系抽取结合 起来,大大增加了训练数据的数量,解决了人工标注 大量数据的问题。在数据集上的实验结果表明,本 文方法达到较高的准确率和召回率。接下来计划将 规则推理引擎应用于其他领域的关系推理中。本文 方法在百度知识图谱大赛中获得第一名的成绩。
分享到:
收藏