第4卷第3期 2014年6月 智能计算机与应用 INTELUGENT COMPUTER AND APPUCArI'IONS V0l-4 No.3 Jun.2014 基于深度学习的电子病历中实体关系抽取 吴嘉伟,关毅,吕新波 (哈尔滨工业大学计算机科学与技术学院。哈尔滨150001) 摘 要:电子病历中包含着医疗领域的丰富知识,对于医疗健康信息服务有着重要的意义。其中的概念实体之间的关系是医疗 知识的重要组成部分。对于获取医疗领域中疾病、治疗、检查之间关系有着重要的意义。针对于电子病历中文本结构稀疏的特点, 原有的基于词的特征表示效果有限,所以从特征选择的角度出发,提出了一种基于深度学习的特征学习,将有限的上下文特征进 行进一步抽象表示的方法。实验中使用深度稀疏自动编码来对实体上下文的向量表示进行再表示,来得到更抽象和更有识别意 义的特征。实验表明,本文使用的深度学习进行特征的再表示方法对于识别的召回率对比于基线实验有比较明显的提高。 关键词:电子病历;实体关系抽取;特征选择;深度学习 中图分类号:TP391 文献标识码:A 文章编号:2095—2163(2014)03—0035—05 A Deep Learning Approach in Relation ExtractiOn in EMRs WU Jiawei.GUAN Yi。LV Xlnbo (School of Computer Science and Technology,Harbin Institute of Technology,Harbin 150001,China) Abstract:Electronic medical records contain huge quantity of medical knowledge,and it has great importance to the clini- cal decision support system.The relations of concepts and entities are very important in the medical knowledge and have significance in getting the relation of diseases,treatment and test.According to the sparsity of the text in the EMR,original method based on the word feature can be limited.This paper starts from the feature selection and makes a research on the feature learning based on deep learning to extract abstract features from the limimd context among the entities.Then this pa- per uses the deep sparse auto——encoder to make a representation of the vector of context for getting more abstract and Dis·· criminative features.The experiment shows that the method of learning features by deep architecture Can reach a better re- suit than the baseline experiment by improving the recall rate of the relation extraction. Key words:EMRs;Entity Relation Extraction;Feature Selection;Deep Architecture O 引 言 电子病历是医疗机构生成的针对于医疗活动过程中文 字、图表等数据的数字化信息,而且也是便于转储、管理和传 输的医疗记录…,其中的内容是由医务人员撰写的与患者开 展医疗有关的过程实录,包括病程记录、出院小结等部分。 电子病历中包含了大量丰富的医疗知识,通过分析即可得到 诸如疾病的患病特征、用药情况以及治疗方式等各项之间的 潜在联系。这样的知识数据可以对医疗问题决策提供有建 设性的帮助,并且还可以为用户建立个性化的健康模型。 电子病历是结构化文本和非结构化文本相结合的一种 知识数据,因此可以通过自然语言处理的方法,来对其进行 信息的抽取,以得到有用的医疗知识。电子病历中的一些专 业概念,在自然语言处理问题中可称为实体,例如药品名称、 治疗名称,实体和实体之间存在着语义关系 J,当两个实体 出现在一个句子中时,实体以及其对应的上下文就决定了这 两个实体之间的关系。实体关系抽取任务可以完成对给定 实体关系类型的判断,针对于电子病历中的数据,就可以选 择合理的特征来对实体之间的关系实现有效甄别。 电子病历中的实体关系抽取主要针对疾病、治疗和检查 之间的关系来进行和展开 ,研究中选用的关系定义来源于 I2B2评测提供的8种实体关系类型,例如关系TrIP定义为 治疗改善或治愈了医疗问题_4 J。抽取这几类实体间的关系 可以构造基于患者健康状况的个体病历的简明摘要,并且可 以发现潜在的药物之间的联系。同时以医疗问题为中心,将 抽取得到的实体关系组织起来,由此而形成对于医疗知识中 疾病、治疗和检查等概念的系统表示。 目前电子病历中的实体关系抽取主要采取机器学习的 方法,将关系抽取任务转化为多分类的问题 J。其具体过 程为:首先对候选实体进行特征选择,加入医疗知识作为辅 助分析,并将抽取得到的特征转化为特征向量,在向量空间 模型中进行有监督学习的分类判别,由此而得到实体对的关 系。鉴于电子病历的结构特殊性和领域特殊性,对于其任务 中的特征选择,将在很大程度上影响关系识别的准确性。但 是对于全领域中的特征选择,并没有能对领域中特征之间的 关系实现整合,因而也并未形成有判别性的特征。同时,若 进一步考虑到有些实体所处上下文信息不足,将医疗领域丰 富的词典知识适当地引入就显得尤为必要。 收稿日期:2014—04—24 作者简介:吴嘉伟(1989一),男,黑龙江哈尔滨人,硕士研究生,主要研究方向:自然语言处理、电子病历信息抽取; 关毅(1970一),男,黑龙江宁安人,博士,教授,博士生导师,主要研究方向:自然语言处理、领域本体; 吕新波(1982一),男,内蒙古牙克石人,博士研究生,主要研究方向:用户健康信息学、病历信息抽取。
·38· 智能计算机与应用 第4卷 实体关系。对其进行前面所述的预处理工作之后,对词进行 词性过滤和词频过滤,筛选得到词特征。对词进行词形还原 和归一化处理之后对词进行编码,构成词的向量空间模型表 示,进行基线实验的有监督分类学习,实验中使用CRF模型 来对得到的向量进行分类。 深度学习实验部分,采取了两部分对比实验,分别采用 原始方式和加入稀疏特征约束的两种方式的模型。实验中 词特征构成的上下文特征的0—1向量维数为3 595,设置隐 藏层节点参数分别为2 000、1 000,训练三层的神经网络 。 对抽取的特征进行分类之后得到结果。 结果的评价是分别对于8种预定实体关系展开准确率、 召回率、Fl值的计算,对比实验效果如表1所示,表中加重的 数字表示实验效果提升的部分。 表1实验结果 Tab.1 Result of the experiments 从结果中可以看出,通过深度学习对有限的特征进行不 断抽象,可以在基线实验的效果之上获得一定的提升,并且 主要对于一些召回率过低的类别的识别具有更为明显的提 升效果。多层自动编码的实验中,对TrIP和TrWP两个类别 的提高较大,但是对于原有的识别较好的关系却略有下降, 这就说明特征引入了一些噪声干扰。加入了稀疏性约束之 后的自动编码模型,相对于原来的两个实验则得到了一个较 好的整体提升效果,其中对于特征提取的限制更加严格,特 征的稀疏性也得到了限制,并且对于噪声进行了合理过滤, 这就使得真正具有判别意义的特征能够保留下来,因而分类 的效果得以提升。 4结束语 本文提出了一种针对英文电子病历的实体关系抽取的 特征学习方法。针对电子病历文本结构特点,以及词特征的 有限表达问题,首先对电子病历中的词进行有效性的过滤和 筛选,初步筛选能够获得在识别上可能有意义的词,组成上 下文的一个表示,然后通过深度学习来学习上下文的一个表 示,从而发掘词之间的组合关系特征,对于实体关系抽取任 务能够实现一定的效果提升。实验证明,相对于电子病历中 的实体关系抽取任务,采用这样的方法对有限特征进行再整 合生成更高级的特征,对于识别的召回率可获得较大的提 升。并可使更多的关系得到正确识别。然而,该方法距离真 正可使用的精度要求还有一定差距,进一步提升的空间比较 大,可以从更多的特征上面人手进行再次抽象,而且在数据 集合更大的情况下,可通过预先统计和添加规则的方法进行 初步词过滤,由此而将上下文的特征进行一个更好的表示。 参考文献: [1]中华人民共和国卫生部.电子病历基本规范(试行).[Online], available:http://www.gov.cn/zwgk/2010—03/04/content一1547432. htm.2010—03—04. [2]UZUNER O,MAILOA J,RYAN R,et a1.Semantic relations for problem—oriented medical records[J].Artificial Intelligence in Medicine,2010,50(2):63—73. [3]徐永东,权光日,王亚东.基于HL7的电子病历关键信息抽取 技术研究[J].哈尔滨工业大学学报,2011(11):89—94. [4]UZUNER D S O,SOUTH B R,SHEN S.2010 I2B2/VA challenge on concepts,assertions,and relations in clinical text.Challenge, 2011,18(5):552—557. [5]张奇.信息抽取中实体关系识别研究[D].合肥:中国科学技术 大学,2010. [6]车万翔,刘挺,李生.实体关系自动抽取[J].中文信息学报,2005 (2):l一6. [7]ROUBERTS A,GAIZAUSKAS R,HEPPLE M,et a1.Extracting clinical relationships from patient narratives[J].BMC Bioinformat— ies,2008,9 Suppl 11(June):s3. [8]DEMNER—FUSHMAN A A D,APOSTOLOVA E,ISLAMAJ D R, et a1.NLM’S system description for the fourth 12B2/VA challenge [C]//Proceedings of the 2010 I2B2/VA Workshop on Challenges in Natural Language Processing for Clinical Data,2010. [9]De BRUHN B,CHERRY C,KIR~CHENKO S,et a1.Machine— learned solutions for three stages of clinical information extraction:the state of the art at I2B2 2010『J1.Journal of the American Medical In formatics Association,2011,18(5):557—562. [10]WANG X,CHUSED A,ELHADAD N,et a1.Automated knowl— edge acquisition from clinical narrative reports[J].AMIA Annual Symposium proceedings AMIA Symposium,2008:783—787. 『1 1]FRUNZA O,INKPEN D.Extraction of disease—treatment semantic relations from biomedical sentences[c]//Proceedings of the 2010 Workshop on Biomedical Natural Language Processing,2010,(Ju- ly):91—98. [12]http://lexsrv2.nlm.nih.gov/LexSysGroup/Projects/lvg/2012/does/ userDoc/tools/luiNorm.html (下转第4l页)
第3期 龚丹丹,等:面向软件错误定位的测试用例约简技术综述 ·41· 测试用例需求,并在此基础上进行测试需求的优化,由此即 构造出与测试需求相关的测试用例。 3 结束语 目前的测试用例约简方法,都只研究了程序运行时的语 句覆盖情况,忽略了程序运行时的具体执行路径信息,因为 具有相同语句覆盖的测试用例所对应的执行路径未必相同, 而且约简测试用例时对错误定位的需求考虑并不充分,因 此,约简后的测试用例对错误定位的精度没有明显提高,甚 至某些测试用例选择方法还会降低错误定位的精度。如果 能够在分析程序执行路径基础上,面向错误定位需求约简出 对错误定位有效的测试用例,那么不仅能降低错误定位的复 杂度,而且也必将有助于提高错误定位的精度。 参考文献: [1]VESSEY I.Expertise in debugging computer programs[J].Interns- tional Journal of Man—Machine Studies:A Process Analysis,1985, 23(5):459—494. [2]WAGNER D.A first step towards automated detection of buffer over- run vulnerabilities[C]//Proc.7“ Network and Distributed System Security Symp,Internet Soc,2002:3—17. [3]ALEXANDRE P,RUI A,ANDRE R.A dynamic code coverage ap· proach to maximize fault localization efficiency[J].Journal of Systems and Software.2014:18—28. [4]JARED D D,RICHARD J E,WILLIAM F P.Systematic bug finding and fault localization enhanced with input data tracking[J].Computer &Security,2013,32:130—157. [5]MAOXG,YAN L,DAI ZY,eta1.Slice—based statisticalfaultlocal— ization[J].Journal of Systems and Software,2014,89:51—62. [6]FEYZULLAH K,HASAN S,RRI A.Spectrum—based fault localiza— tion for diagnosing concurrency faults[J].Testing Software and Sys— tems,2013,8254:239—254. [7]GROCE A.Error explanation with distance metrics[C]//Tools and Algorithms for the Construction and Analysis of Systems(TACAS), Barcelona,Spain,March/April,2004:108—122. [8]CHAKI S,GROCE A,STRICHMAN O.Explaining abstract counterex— ; amples[C]//Foundations of Software Engineering.Newport Beach, California,November,2004:73—82. . [9]JEFFREY D,GUPTA N.Improving fault detection capability by selec- tively retaining test cases during test suite reduction[J]. IEEE Trans. Softw.Eng.,2007,33(2):108—123. [10]SHEN Shengyu,QIN Ying,LI Sikun.Localizing eITOI~in counterex- ample with iteratively witness searching[C]//the Proceedings of 2耐 International Conference on Automated Technology for Verification and Analysis,Taipei,Taiwan,2004:56—469. [11]叶俊民,张涛,董威,等.基于程序静态分析和故障树的软件故障 检测[J].计算机工程,2008,34(16):75—79. [12]吕春燕.用于程序错误定位的运行路径聚类方法[D].大连海事 大学,2011.6. [13]REPS T,BALL T,DAS M,et a1.The use of program profiling for software maintenance with applications to the year 2000 problem [C]//Proceedings of the 6 European Software Engineering Confer- ence Held Jointly with the 5 ACM SIGSoFT Intemational Symposi· um on Foundations of SoftwareEngineering(ESEC’97/FSE一5). Zurich,Switzerland,1997:432—449. [14]BAUDREY B,FLEUREY F,TRAON Y L.Improving test suites for efficient fault localization[C]//International Conference on Software Engineering,Shanshai,China,May 2006:82—91. [15]ZHANGX,GUQ,CHENX,et a1.A study of relative redundancyin test——suite reduction while retaining or improving fault—-localization effectiveness.SAC,2010:2229—2236. [16]SANTELICES R,JONES J A,Yu Yanbing,et a1.Lightweisht fault —localization using multiple coverage types[C]//Proceedings ofthe 31“International Conference on Software Engineering,May 16—24, 2009:56—66. [18]WANG Tao,ROYCHOUDHURY A.Automated Path Generation for Software Fault Localization,2005:347—35 1. [19]CHEN Z,XU B,ZHANG X,et a1.A novel approach for test suite re— duction based on requirement relation contraction.SAC.2008:390— 394. (上接第38页) [13]白海燕,王莉,梁冰.UMLS及其在智能检索中的应用[J].现代 图书情报技术,2012(4):1—9. [14]方平,胡德华.一体化医学语言系统在医学科技信息检索中的应 用[J].湖南医科大学学报(社会科学版),2000(1):32—36. [15]RINK B,HARABAGIU S,ROBERTS K.Automatic extraction of relations between medical concepts in clinical texts,201 1. [16]BENGIO Y.Learning deep architectures for AI.Foundations and Trends in Machine Learning,2009. [17]BENGIO Y,LAMBLIN P,POPVICI D,et a1.Greedy layer—wise training of deep networks[C]//Advances in Neural Information Pro— cessing Systems 19:Proceedings of the 2006 Conference,2007. [18]孙志军,薛磊,许阳明.深度学习研究综述[J].计算机应用研究, 2012,29(8):2806—2810. [19]HINTON G E,SALAKHUTDINOV R.Reducing the dimensionality of data with neural networks[J].Science,2006,313:504—507. [20]LE Q v,RANZATO M A,MONGA R,et a1.Building high—level features using large scale unsupervised learning[C]//ICML,2012. [21]COATES A,LEE H,NG A Y.An analysis of single—layer net— works in unsupervised feature learning[C]//AISTATS 14,201 1. [22]ZHOU S,CHEN Q,WANG X.Active deep networks for semi—su— pervised sentiment classification[C]//International Conference on Computational Linguistics,Coling 2010 Organizing Committee,Bei— jing,China,2010:1515—1523.