基于规则推理引擎的实体关系抽取研究_薛丽娟.pdf

发布时间：2022-05-31 发布人：admin 分类：说明书资料大小：2.60M 资料格式：pdf 举报版权申诉

cln8505-12673110-16359647508049115419.pdf-第1页.png

第1页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第2页.png

第2页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第3页.png

第3页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第4页.png

第4页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第5页.png

第5页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第6页.png

第6页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第7页.png

第7页 / 共10页

cln8505-12673110-16359647508049115419.pdf-第8页.png

第8页 / 共10页

文本预览

ISSN 1673-9418 CODEN JKYTA8 Journal of Frontiers of Computer Science and Technology 1673-9418/2016/10(09)-1310-10 doi: 10.3778/j.issn.1673-9418.1509086 E-mail: fcst@vip.163.com http://www.ceaj.org Tel: +86-10-89056056 基于规则推理引擎的实体关系抽取研究* 薛丽娟，席梦隆，王梦婕，王昊奋，阮彤+ 华东理工大学信息科学与工程学院，上海 200237 Entity Relation Extraction Based on Rule Inference Engine* XUE Lijuan, XI Menglong, WANG Mengjie, WANG Haofen, RUAN Tong+ College of Information Science and Engineering, East China University of Science and Technology, Shanghai 200237, China + Corresponding author: E-mail: ruantong@ecust.edu.cn XUE Lijuan, XI Menglong, WANG Mengjie, et al. Entity relation extraction based on rule inference engine. Journal of Frontiers of Computer Science and Technology, 2016, 10(9)：1310-1319. Abstract: Entity relation extraction refers to extract semantic relationships between entities from unstructured natural language text and express in a structured form. Traditional entity relation extraction methods only focus on a particular type of data source, and label large numbers of training data by humans to train extraction model. Manually labeling training data are labor-intensive and time consuming. So this paper proposes a method integrating diversity data sources, and combines rule-based inference engine to discover relation triples. More precisely, integrating structured and un- structured data sources, and in the case of having small amount of seeds provided by structured data, a large number of entity relationships are reasoned by rule-based inference engine. The newly entity relationships are fed as seeds to dis- tantly supervise the learning process to extract entity relationships from unstructured text. The final entity relationships are obtained through multiple iterations. The experimental results show the effectiveness of the proposed method. Key words: relation extraction; relation reasoning; distant supervision; rule-based inference engine 摘要：实体关系抽取是指从无结构的自然语言文本中抽取实体之间的语义关系，并以结构化的形式表示出来。传统的实体关系抽取方法只注重一种特定类型的数据源，并需要标注大量的训练数据来训练抽取模型， * The Software and Integrated Circuit Industry Development Special Funds of Shanghai Economic and Information Commission under Grant No. 140304 (上海市经信委“软件和集成电路产业发展专项资金”). Received 2015-08, Accepted 2015-10. CNKI 网络优先出版: 2015-10-20, http://www.cnki.net/kcms/detail/11.5602.TP.20151020.1042.016.html

薛丽娟等：基于规则推理引擎的实体关系抽取研究 1311 人工成本高。因此提出了一种综合多种数据源，并结合规则推理引擎的实体关系抽取方法，准确地说就是综合结构化和非结构化两种数据源，在结构化数据提供少量种子的情况下用规则推理引擎推理出更多的实体关系。然后使用远程监督学习方法从无结构的文本中抽取实体关系，通过多次迭代获得最终的实体关系。实验结果证明了该方法的有效性。关键词：关系抽取；关系推理；远程监督；规则推理引擎文献标志码：A 中图分类号：TP391 1 引言实体关系抽取是信息抽取的子任务，其主要目的是把无结构的自然语言文本中所蕴含的实体之间的语义关系抽取出来，并以结构化的形式表示出来，供用户查询和分析使用。远程监督学习（distant super- vision learning）是训练大规模关系抽取器的主要方法。传统的实体关系抽取方法需要针对预先定义好的每一类实体关系人工标注大量的训练语料，然后利用机器学习的方法训练分类器进行新的实体关系识别。人工标注大量的训练数据是非常耗时和耗力的，因此本文将实体关系抽取和实体关系推理结合起来，只需要在少量训练数据的情况下就可以训练出大规模关系抽取器。另外传统的实体关系抽取只注重一种特定类型的数据源，怎样充分利用不同的数据源并没有得到充分研究。本文提出的方法将综合多种数据源，不仅从无结构的文本中可以抽取出实体关系，从半结构的实体属性中也可以抽取出实体关系。本文主要从百度知识图谱大赛提供的数据文件中抽取人物实体之间的关系，针对于此，提出了一种新颖的基于规则推理引擎的实体关系抽取方法。本文的主要贡献在于：（1）综合多种数据源抽取实体关系，不仅可以从无结构文本中抽取出实体关系，从半结构的实体属性中也可以抽取出实体关系。（2）将关系抽取和关系推理结合起来增加训练数据的数量。原始的训练数据比较稀疏，使用规则推理引擎推理出一些关系作为训练数据，用来帮助从无结构文本中抽取关系三元组，将从无结构文本中抽取出的高置信度的关系三元组再加入到种子集中，因此整个过程是不断迭代进行的，在每一轮迭代中，抽取出的高置信度的关系三元组将作为新的种子。（3）本文的实体关系抽取主要是人物关系抽取，关系抽取时将实体本身固有的属性作为特征将会大大提高关系抽取的准确率，比如实体的性别属性以及实体的姓名特征。 2 相关工作实体关系抽取是信息抽取的一个应用，在过去几年里得到了广泛的研究。封装器归纳法（wrapper induction）是一种用于从半结构化数据中抽取信息的方法。Multi-view learner[1]和 Vertex![2]使用监督学习方法从手动标注的数据中学习抽取规则。信息抽取的另一种方法就是从文本中抽取信息，Snowball[3]和 TextRunner[4]就是典型的例子。Snowball 的输入是语料和种子集，通过总结语料中种子出现的模式学习抽取模式（extraction patterns）。 Banko 等人构建的 TextRunner 系统在没有事先定义规则和手动标注种子的情况下从语料中学习所有的关系。Reverb[5]使用句法分析确定关系短语，将出现在两个名词短语之间的动词短语作为关系短语。Wu 等人[6]的 WOE 系统使用种子式扩展方法从 Wikipedia 的 Infoboxes 中学习抽取 patterns。Reverb 和 WOE 只能抽取出所有关系短语是动词的关系，同时它们也忽略了上下文，因此抽取的关系三元组并不是事实。为了改善这些缺陷，Mausam 等人[7]提出了 OLLIE 系统，OLLIE 可以抽取出关系短语不是动词的短语，并且可以抽取出使关系成立的条件。 TextRunner、Reverb、WOE 和 OLLIE 都是在没有事先定义规则和没有事先给出目标关系的情况下抽取所有的关系，因此这些方法都属于开放域关系抽取（open information extraction, Open IE）。本文需要从文本中学习出给定的目标关

1312 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2016, 10(9) 系，这是本文工作和 Open IE 方法很大不同的地方。 NELL[8]、SOFIE[9]和 PROSPERA[10]是需要给定目标类别和关系的信息抽取工具。NELL 的输入数据由包含几百个类别和关系的初始本体以及每个类别和关系的少量实例组成。SOFIE 通过将学习得到的 pattern 和文本进行匹配，从文本中抽取本体事实，并将这些事实链接到本体知识库中，它在现存的知识库上做本体推理，目的是对词义进行消歧。因此 SOFIE 是一个将模式匹配、词义消歧和本体推理集合在一起的系统。Nakashole 等人提出的 PROSPERA 对 SOFIE 进行了改善。PROSPERA 对 pattern 做 N- gram，目的是对 pattern 进行泛化以增加召回率。 KYLIN[11]使用迭代的方法构造训练数据，用构造的训练数据学习两种分类器，一种分类器用于识别，另一种分类器用于过滤。KOG[12]使用机器学习中的支持向量机（support vector machine, SVM）和马尔可夫逻辑网络（Markov logic network，MLN）中联合推理的方法将 Wikipedia 的 Infoboxes 和 WordNet 结合起来建立了一个丰富的本体。NELL、SOFIE和PROSPERA 都需要手动定义一些规则来帮助 pattern 的学习，而在本文的工作中并不需要手动地定义规则。信息抽取的一个趋势是从发布在网上的数据中抽取信息，包括网页、开放链接数据和动态网站上的列表和表格。Gentile 等人[13]提出多策略学习的方法，该方法将文本抽取和包装器归纳学习结合起来，从列表、表格和网页中抽取知识。虽然这种方法看起来似乎很好，但是在他们的文章中并没有清楚地说明实验评估结果。另一方面，远程监督是利用不同种类数据源之间冗余信息的有效方法，文献[14-15] 就是使用远程监督学习的方法抽取关系。 3 整体思想 3.1 问题定义本文的语料集 S 由实体描述属性中的分句构成， ={ , 每个分句至少包含两个实体。本文的任务可以描述 r2 r1 为：给定关系类型体系 R ，实体集合 )| r E 以及每个实体 e 的全部属性和少量的实体关系种子集合 Seed r e ，对于 ,⋯, ∈ ={ , e1 ,⋯, ={( } , ∈ e n r , e2 } } m i e i k j k R e i e j E ∈ ∀ s S ，给定句子 S 中的两个实体 e ∈ ∈ , E i e j E ，预测 e i 、e j 在 S 中的关系对应于集合 R 中的一个或多个 r 。例如，给定句子“姚沁蕾是篮球明星姚明的女儿” k 以及实体“姚明”和“姚沁蕾”，本文的任务就是预测出<姚明，姚沁蕾>在句子 S 中是“女儿”关系。分析了语料库中的数据之后可以得到以下的观察：（1）可以从实体的一些属性中抽取出实体关系，比如从实体的“parent”属性中可以抽取出“父母”关系。（2）现有的规则推理引擎可以推理出新的实体关系。可以将实体关系文件给出的实体关系以及从实体属性中抽取的实体关系作为输入，用规则推理引擎推理出更多的实体关系。在本文中，规则推理引擎还需要实体性别作为输入。（3）一些关系类型之间具有层次关系，如“父母” 关系和“父亲”、“母亲”这两个关系具有层次关系。确定了“父母”关系后，可以根据实体的性别进一步确定是“父亲”关系还是“母亲”关系，以<姚沁蕾父母姚明>为例，如果可以确定“姚明”的性别为“男”，那么可以将上述关系三元组细化为<姚沁蕾父亲姚明>。因此识别出实体的性别有助于关系的抽取。 3.2 整体流程本文的目标是找到一种识别语料库中任意实体对之间关系的方法。实体关系文件已经给出少量的实体关系作为种子，但是这些种子对于训练抽取器是远远不够的。根据 3.1 节的观察，可以通过两种途径扩充种子的数量：一种是从实体的属性中抽取实体关系；另一种是用规则推理引擎推理出新的实体关系。将以上实体关系作为种子帮助从实体的“des- cription”属性中抽取实体关系。实体的“description” 属性可以看作是一种无结构的文本，因此整个过程就是远程监督学习的过程。本文的工作主要分为 3 步：实体性别识别、规则引擎推理和实体关系抽取。整体流程如图 1 所示。 4 算法设计 4.1 实体性别识别通过观察，实体的性别可以通过 3 种途径获得：（1）从实体的“gender”属性中识别实体的性别。

薛丽娟等：基于规则推理引擎的实体关系抽取研究 1313 Fig.1 Overall workflow of algorithm 图 1 算法整体流程图对于一些实体，它们本身包含“gender”属性，因此可以直接确定这些实体的属性。（2）使用一些预先定义的启发式规则从实体的 “description”属性中识别实体的性别。实体的“des- cription”属性由一个或多个分句组成，如果“descrip- tion”属性的第一个分句包含“，男，”或者“，女，”，那么就可以直接确定该实体的性别。（3）从实体关系文件的三元组中识别实体的性别。部分关系三元组中的关系谓词和性别有关，比如三元组<姚明女儿姚沁蕾>，根据关系谓词“女儿” 可以确定“姚沁蕾”的性别为“女”。以上 3 条观察可以识别一部分实体的性别，但是大部分实体的性别还是无法确定。因为使用上述 3 条观察识别出的实体性别准确率很高，所以把这些实体作为训练数据，实体性别识别任务就可以视为一个二分类问题，使用支持向量机为分类模型。使用分类法识别实体性别的过程如下：（1）特征抽取高频词作为特征：用 S 表示训练数据中所有实体的“description”属性的分句集合，使用 Stanford Parser 对 S 分词，选择出现次数超过 50 次的词为高频词。性和女性的身高、体重具有很明显的差别，所以 “weight”和“height”属性对分类具有很大的贡献。 “weight”和“height”的属性值经过标准化和离散化之后作为特征值。建立姓名库作为特征：通常可以根据姓名中的某些字确定实体的性别，选择经常出现在男性姓名中的字建立一个男性姓名库，选择经常出现在女性姓名中的字建立一个女性姓名库，然后把男性姓名库和女性姓名库分别作为特征。（2）特征选择并不是所有的特征都对分类有贡献，在分类之前需要进行特征选择，本文使用信息增益选择对分类有贡献的特征。（3）训练分类模型使用训练数据训练 SVM 分类模型，用训练好的分类模型对性别未知的实体进行分类。 4.2 规则引擎推理规则推理引擎通常有规则和事实两个输入，目的是把已知的事实按照一定的规则推理出新的事实。在本文中，事实是关系三元组，根据关系谓词的性质，人工总结出如下 8 条规则。实体的“weight”和“heigh”属性作为特征：因为男（1）关系谓词具有反函数性，则存在规则：

1314 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2016, 10(9) ⇔ ⇔ ⇔ ⇒ ⇔ 如： ⇒ （2）关系谓词加条件后具有反函数性，则存在规则： ⇒ [with conditions] 如： [e1(女)] （3）关系谓词具有对称性，则存在规则：如： ⇒ （4）关系谓词加条件后具有对称性，则存在规则： ⇒ [with conditions] 如： [e1(男)] ⇒ （5）关系谓词具有传递性，则存在规则： and 如： and ⋯ （6）关系谓词具有多重复合关系，则存在规则： and and 1 rn en> [with conditions] 如： and ⇒ （7）关系谓词具有层次性，则存在规则： ⇒ [with conditions] 如： [e2(男)] （上层向 - and ⇒ 下层细分） ⇒ ⇒ ¬ ¬ （下层向上层扩展） ⇒ （8）关系谓词具有互斥性，则存在规则：如：从实体的“parent”、“spouse”属性中可以抽取出实体关系，将抽取出的实体关系和关系文件中给出的实体关系作为种子用于规则推理引擎的推理，规则推理引擎推理出的实体关系加入到种子集中。本文使用 Drools 和 Tuffy 两种规则推理引擎。 4.3 实体关系抽取实体的“description”属性由一个或多个句子组成，因此可以将“description”属性看作是无结构的文本。使用种子数据从实体的“description”属性中抽取出至少包含一个实体且该实体不是当前实体的分句，对于只包含一个实体的分句，使用简单的规则加上当前实体，这样就得到训练数据。本文从实体的上下文、句法、词性等信息中抽取特征训练分类器，从而完成关系抽取任务。每一种关系的抽取都视为一个二分类问题，为每一种关系训练一个分类模型。为某种关系训练分类模型时，当前关系作为正例，其他所有关系作为负例。 4.3.1 最短依赖路径作为抽取特征使用 Stanford Parser 对分句做依存关系分析，从产生的依赖路径中学习出对关系抽取有用的 pat- terns。以下面的句子为例：姚沁蕾是篮球明星姚明的女儿。产生的依赖路径为：nsubj（女儿-7，姚沁蕾-1）， cop（女儿-7，是-2），nn（明星-4，篮球-3），nn（女儿-7，明星 -4），assmod（女儿 -7，姚明 -5），case（姚明 -5，的-6），root（ROOT-0，女儿-7）。这些依赖路径形成一个有向图，每一个词语是图的一个顶点 v V ， E 是依赖关系集。对于任意两个顶点，如“姚明”和 “姚沁蕾”，使用最短连接路径表示两者之间可能存在的关系： ∈ 姚沁蕾 ¾ ®¾¾¾¾ 这种路径叫作核心路径，可以看出核心路径对女儿 ¬ ¾¾¾¾¾ 姚明预测两个实体之间的关系是很有用的。为了解决数据稀疏的问题，本文对核心路径进行泛化，用词性标注取代核心路径中的词语。同时，所有的专有名词都抽象为“NN”，所有的复合名词（如 “NN nn NN”）都抽象为“NN”。以上述核心路径为例，泛化后的路径为：NN ¾ ®¾¾nsubj NN ¬ ¾¾¾¾¾assmod NN，把这种泛化后的核心路径作为 pattern。由于产生的 pattern 比较稀疏，需要对 pattern 进行合并。pattern 的合并分两种情况：（1）对 pattern 在一定的编辑范围内进行合并。如果一个 pattern 和另一个 pattern 只有一个词性或依赖关系不同，就把这两个 pattern 合并成“或”的关系。比如：pattern1 为“prnmod VV dobj NN dep”，pat- tern2 为“prnmod VV dobj NN assmod”，这两个 pattern 只有一个依赖关系不同，可以合并成“prnmod VV dobj NN dep|assmod”。（2）对 pattern 进行规约处理。如果一个 pattern 是另一个 pattern 的一部分，就把这两个 pattern 合并

薛丽娟等：基于规则推理引擎的实体关系抽取研究 1315 成父子关系。比如：pattern1 为“nsubj VV ccomp VV nsubj”，pattern2 为“nsubj VV ccomp VV nsubj NN conj”，pattern1 是子 pattern，pattern2 为父 pattern，父 pattern 可以写成“子 pattern*”。 4.3.2 关键词作为抽取特征分句中的关键词对确定实体之间的关系非常有用。当两个分句的句式结构相同时就需要通过关键词语来确定实体之间的关系，以下面两个句子为例：姚沁蕾是篮球明星姚明的女儿。张慕童是港星张智霖的儿子。它们泛化后的核心路径都为：NN ¾ ®¾¾ NN NN，这时就需要根据关键词语“女儿”和“儿 nsubj assmod ¬ ¾¾¾¾¾ 子”来确定两对实体之间的关系。关键词作为特征的表示形式为：“W1|W2|W3| W4|W5”，其中 W1、W2、W3、W4 和 W5 表示同一个意思的词语，“|”表示或关系。使用 Fudan Natural Lan- guage Process 中的关键词抽取方法抽取出每个分句的关键词，抽取出的关键词需要经过词义统一和词义扩展两步处理。词义统一是为了使表示同一个意思的词语为同一维特征，如“儿子”和“独子”表示同一个意思；词义扩展是为了使在训练数据中没有出现但是和抽取的关键词表示同一个意思的词语为同一维特征，如从训练数据中抽取的关键词没有“次子”一词，但“次子”和“儿子”、“独子”表示同一个意思。经过词义统一和词义扩展之后，表示“儿子”关系的这一维特征为“儿子|长子|独子|次子|幼子”。关系集 R 中的部分关系和实体的性别有关，如 “父亲”、“女儿”等关系。实体本身具有的属性对关系抽取很有帮助，因此对于和性别有关的关系，抽取特征除了最短依赖路径和关键词之外还包括实体的性别。本文对“父亲”关系增加了一维其独有的特征，就是判断两个实体的“姓”是否相同，如果相同就置这一维特征为“1”，否则为“0”。并不是所有的特征都对分类有贡献，因此在训练分类器之前要对特征进行特征选择，本文选用信息增益作为特征选择方法。虽然本文使用的方法是为每一种关系都训练一个分类模型，但是所有的分类模型包含的特征类型都相同。 5 实验分析 5.1 实验数据与设置 , ∈ ∈ 本文所用的语料库 Corpus 是百度知识图谱大赛提供的 3 个数据文件：实体属性文件、实体关系文件、实体模式文件。实体属性文件（entity）共包含 11 445 个实体，描述的是每个实体所包含的属性以及对应的属性值，实体属性主要包括“name”、“sid”、 “weight”、“height”、“description”、“parent”等属性。 , 实体关系文件（relation）用关系三元组表示两个实体之间的关系，其中 e1 R ，本文所有的关系都是人物关系。实体关系文件中共有 964 条关系三元组，其中包含 129 个关系谓词，覆盖 1 322 个实体。实体模式文件（schema）定义每一类实体包含的属性。虽然本文方法是半监督的，但是需要标注数据去评估抽取质量。本文使用准确率 Precision 和召回率 Recall 作为评价标准，若 A 表示抽取出的正确的关系三元组，B 表示抽取出的错误的关系三元组，C 表示没有抽取出的关系三元组，则准确率和召回率的定义分别如下： e2 E r Precision Recall = , + A A B = + A A C 5.2 实验结果与分析 5.2.1 实体性别识别的结果分析实体性别识别时所用的特征包括高频词（words）、“height”和“weight”属性（attributes）、男女姓名库（names）3 类，每一类特征对实验结果的影响如图 2（a）所示。本文在性别识别时选择支持向量机、决策树（decision tree，DT）、朴素贝叶斯（Naïve Bayes， NB）和逻辑回归（logistic regression，LR）4 种不同的学习算法训练分类模型，对这些模型进行比较，选择识别准确率最高的模型作为最终的分类模型。不同学习算法的比较结果如图 2（b）所示。 5.2.2 实体关系抽取的结果分析本文对“妻子”、“师生”、“祖孙”、“兄弟”和“父亲”5 种关系进行了实验。根据 4.2 节的描述，使用规则推理引擎对种子关系三元组进行推理以增加种子的数量，对 Drools 和 Tuffy 两种规则推理引擎的比较如表 1 所示。由于 Tuffy 执行时把事实存放在关系数

1316 Journal of Frontiers of Computer Science and Technology 计算机科学与探索 2016, 10(9) Fig.2 Comparison of different feature combinations and models 图 2 不同特征组合和模型比较据库中，判断查询通过 SQL 语句实现，由于用到数据库技术，所需的内存就较小，但是本地 I/O 频繁，导致运行速度较慢；而 Drools 执行时把事实存放在内存中，使用 Rete 算法对判断和查询进行优化，因此所需的内存较大，但是运行速度快。本文选择了 Drools 作为规则推理引擎。 Table 1 Comparison of rule-based inference engines 表 1 规则推理引擎的比较规则推理引擎 Drools Tuffy 推理出的条数 834 753 正确的条数 834 731 用时/s 8 71 785 需要内存/MB 500 100 使用推理前和推理后的种子数据分别进行实验，这里只使用 NaiveBayes 作为分类器，对抽取结果的影响如表 2 所示。使用规则推理引擎推理后，种子数据的数量增加，对于“妻子”一些关系的准确率会有所降低，但是抽取出的条数会大幅度增多，大大提高了召回率。 Table 2 Reasoning comparison 表 2 推理前后比较关系妻子师生祖孙兄弟父亲推理前推理后抽取条数正确条数抽取条数正确条数 8 73 58 71 100 8 53 43 50 42 238 333 58 76 203 196 251 43 54 189 本文试图找到最适合的种子数量去学习最佳的分类模型，这里只使用 Naïve Bayes 分类器，不同数量的种子对抽取的准确率和召回率的影响分别如图 3 （a）和图 3（b）所示。本文综合考虑准确率和召回率，在保证有较高准确率的前提下又有较高的召回率。为每一种关系选择了一个最佳的种子数量，“妻子”、“师生”、“祖孙”、“兄弟”和“父亲”5种关系的最佳种子数量分别是50、20、30、30和100。但是在关系文件中5种关系的种子数都达不到上述标准，因此需要使用规则推理引擎推理出更多的关系三元组加入到种子集中。根据 4.3 节的描述，本文对 pattern 特征进行合并处理，pattern 合并前后的准确率如图 4（a）所示。对关键词特征进行了合并扩展处理，关键词合并扩展前后的准确率如图 4（b）所示。可以看出，对 pattern 进行合并和对关键词进行合并扩展可以提高抽取的准确率。在对每一种关系进行分类时，本文同样选择了 4 种不同的学习算法 SVM、DT、NB 和 LR 训练分类模型，不同学习算法对结果的影响如表 3 所示。本文综合考虑抽取的准确率和召回率为不同的关系选择不同的分类模型，对于“兄弟”关系，NB 学习算法明显优于其他学习算法，但对于“祖孙”关系，各种学习算法没有很大区别。 6 结束语本文针对传统实体关系抽取需要人工标注大量数据并只注重一种特定类型的数据源的问题，提出

薛丽娟等：基于规则推理引擎的实体关系抽取研究 1317 Fig.3 Precision and recall of different seed amount 图 3 不同种子数下的准确率和召回率 Fig.4 Comparison of pattern and keyword 图 4 Pattern 和关键词的比较 Table 3 Comparison for different models 表 3 不同模型的比较关系妻子师生祖孙兄弟父亲 SVM DT NB LR Precision 0.944 0 0.826 5 0.741 4 0.829 5 0.496 1 Recall 0.905 4 0.518 7 0.796 3 0.592 3 0.635 5 Precision 0.939 5 0.826 5 0.741 4 0.837 0 0.376 7 Recall 0.847 2 0.520 6 0.796 3 0.592 3 0.742 1 Precision 0.823 5 0.845 4 0.741 4 0.831 6 0.931 0 Recall 0.970 9 0.501 9 0.796 3 0.607 7 0.931 0 Precision 0.734 3 0.839 7 0.741 4 0.875 0 0.461 9 Recall 0.894 5 0.539 3 0.796 3 0.592 3 0.867 0 了一种基于规则推理引擎的从多种数据源抽取实体关系的方法。从实体的多种属性中抽取出实体关系，经规则推理引擎推理出更多的实体关系作为种子；帮助从无结构的文本中抽取实体关系。本文方法的优点在于将实体关系推理和实体关系抽取结合起来，大大增加了训练数据的数量，解决了人工标注大量数据的问题。在数据集上的实验结果表明，本文方法达到较高的准确率和召回率。接下来计划将规则推理引擎应用于其他领域的关系推理中。本文方法在百度知识图谱大赛中获得第一名的成绩。

分享到：

赞收藏

资料库

基于规则推理引擎的实体关系抽取研究_薛丽娟.pdf

相关推荐

人工智能

热门标签

最新资料