5
10
15
20
25
30
35
40
中国科技论文在线
http://www.paper.edu.cn
中文新闻要素抽取方法的研究
时旭,吴国仕**
(北京邮电大学软件学院,北京 100876)
摘要:新闻要素抽取是信息抽取的重要任务之一。其主要目标是识别出新闻文档中描述的与
新闻事件相关的要素信息(包括 when(何时)、where(何地)、what(何事)、who(何
人)、why(为何)、how(如何),下简称 5w1h)。为帮助用户更快的理解新闻的内容,
获取 4w 信息(what、when、who、where),以事件(what)为驱动,对事件抽取的两项关
键技术:事件句的抽取和事件要素抽取进行了研究。提出一种结合句子和标题关联度、停用
词频率、实体、句子长度等多维特征融合的关键事件句抽取算法;引入 Word2vec 词向量进
行标题词扩充;结合语义角色标注和依存句法分析技术,研究并实现了关键事件句抽取和要
素抽取模型。实验表明,在关键句抽取方面获得了较高的准确率。对于要素信息的抽取,识
别出关键事件句中的 4w 信息,获得了较好的结果。
关键词:计算机应用;自然语言处理;信息抽取;事件要素抽取;关键事件句识别
中图分类号:TP391.1
Research on Chinese News Elements Extraction Method
SHI Xu, WU Guoshi
100876)
(School of Software Engineering, Beijing University of Posts and Telecommunications, Beijing
Abstract: News elements extraction is one of the important tasks of information extraction. The main
goal is to identify the elemental information related to the news event described in the news document,
including when, where, what, who, why, how ), Hereinafter referred to as 5w1h). In order to help users to
understand the content of the news faster, get the 4w information (what, when, who, where) and take the
events as what drives the two key technologies of event extraction: event sentence identification and
event elements the study. This paper proposes a key event sentence extraction algorithm combining
multi-dimension feature fusion such as sentence and title relevance degree, stop word frequency, entity
and sentence length. Word2vec word vector is introduced to expand the title words. Combined with
semantic role labeling and dependency syntax analysis, And realized the key incident sentence
recognition and factor recognition model. Experiments show that in the key sentence recognition
obtained a higher accuracy. For the extraction of the feature information, the 4w information in the key
event sentence is identified, and the better result is obtained.
Keywords: computer application; natural language processing; information extraction; event elements
extraction; key event sentence recognition
0 引言
新闻是人们了解时事政治、获取外部信息的一种重要媒介。随着计算机技术的发展和互
联网的普及,网络已经成为新闻事件报道和传播的重要和主要平台。在面对数量庞大的新闻
文本时,人们在通过阅读全文获取新闻主要信息所花费的时间价值可能已经超出了新闻本身
的价值。因此,如何能通过一种快速且准确的方式,向人们展现新闻主要信息就成为了解决
新闻阅读成本问题的重要手段。
和记叙文类似,新闻的主体一般也是由六要素(5w1h)组成,即:事件(what)、事
件发生的时间(when)、人物(who)、地点(where)、原因(why)、过程(how)。从
认知心里学角度出发,通常人们是以“事件”为单位体验和认知世界的。而在语言学、哲学领
作者简介:时旭(1994-),男,硕士研究生,主要研究方向:大数据与智能信息处理
通信联系人:吴国仕(1957-),男,教授,主要研究方向:大数据与智能信息处理. E-mail: guoshiwu@bupt.edu.cn
- 1 -
中国科技论文在线
http://www.paper.edu.cn
45
50
55
60
65
70
75
80
域,事件都是一个十分普遍的概念,人们关心的并不是文档内容本身,而是文档中所描述的
主要事件的要素信息,比如 4w 信息(what、where、when、who,注:由于现有的自然语言
技术在识别 why 和 how 两个要素时存在困难,故本文只考虑其他 4w)。如果我们对一篇新
闻的 4w 信息已经了解,那么我们就可以很快把握新闻的主要内容,无需再花费时间去仔细
阅读整篇文章。这将给我们获取信息带来巨大帮助,节约大量的时间。
而一篇新闻当中,描述关键事件要素信息的句子往往不多,这些关键事件要素也主要蕴
藏在关键事件句之中。所谓关键事件句是指:与新闻描述的主要事件相关,并且包含新闻
5w1h 要素的全部或者部分的句子。所以,如何准确的抽取出新闻的关键事件句就成为了事
件抽取的主要任务。
因此利用机器学习、自然语言处理等技术,以事件为驱动,识别出关键事件句,进而抽
取出 4w 要素, 将能够有效地帮助人们获取信息,理解新闻。
1 国内外主要技术
新闻要素识别的任务,就是从一篇新闻文本中识别出新闻主要描述的事件以及事件的主
要要素。这一任务的目的和信息抽取领域中的事件抽取任务的目的类似。事件抽取是从自然
语言形式的文本中提取出事件以及涉及其中的特定类型的实体, 并以结构化的形式呈现出
来的过程[1]。因此从本质上来讲,新闻要素识别任务最终可以落脚到事件抽取任务上来,它
是以事件抽取任务为基础的。
从上世纪年代末开始,事件抽取的相关研究蓬勃开展起来。这主要得益于消息理解系列
会议(Message Understand Conference,下简称 MUC)和自动内容抽取(Automatic Content
Extraction,下简称 ACE)评测的大力推进。在上个世纪八九十年代,MUC 对事件抽取领域
起到了很大的促进作用,而事件抽取也始终是这一会议的评测项目之一[2]。MUC 会议停办
以后,ACE 测评开始在信息抽取领域发力,2004 年首次引入事件抽取测评任务,并于 2005
年首次引入中文事件抽取的测评[3]。
受两大会议的影响,关于事件抽取在国内外越来越多的研究成果被提出。总结来看可以
分为基于模板和基于机器学习的两大类:
1)基于模板的方法是指对于某种类型事件的识别和抽取是在一些模式的指导下进行的,
采用各种模式匹配算法将待抽取的事件和已知的模式进行匹配,这个模式需要人为的设定和
获取。清华大学的陈群秀等人提出了一种基于框架的信息抽取模式并建立了统一的灾难性事
件框架[4];上海交通大学的冯礼基于事件框架的突发事件信息抽取使用预定义的事件框架,
进行新闻要素的信息抽取,同时探测事件框架中未事先设定的新侧面信息,进行对事件框架
的补充[5]。这种方法准确率较高,结果表示直观、自然,便于推理,效果明显好于基于机器
学习的方法。然而,当从一种语料领域转移到其他语料领域时,识别效果会明显降低,移植
性较差。而且模式的获取需要有丰富经验的特定领域的语言专家才能完成,抽取的模式不可
能涵盖所有的事件类型,因此并没有成为主流的研究方向。
2)基于机器学习的方法将事件抽取看作分类问题,重点是特征和分类器的选择。这种
方法把事件抽取分为两大过程:事件触发词、事件类别的识别和事件元素的识别。Chieu 和
Ng 于 2002 年在事件抽取的事件元素识别过程中首次引入最大熵分类器[6],实现了机器学习
算法在事件抽取领域的应用突破。但由于该方法将所有的词引入构建判断事件各元素的分类
器,由于文本中存在过多非事件元素的词,所以构建的分类器引入了过多的反例,导致正反
- 2 -
85
90
95
100
http://www.paper.edu.cn
中国科技论文在线
比例严重失衡;赵妍妍等人基于 ACE 中文事件抽取测评任务,提出一种基于触发词的候选
事件句二元分类来识别事件句的方法[7],取得了较好的结果,并成为主流的研究方式。
需要事先定义触发词表和每个触发词对应的事件类型,如果句子分词后的词列表
={,,…,,…,}中的某个∈ (1≤≤),就把这个句子当作候选事件句
,然后将触发词对应的事件类型作为这个句子的候选事件类型,最后构建句
基于触发词的这类方法一般都是采用信息抽取技术识别预先定义好的一种或几种事件。
子特征、词汇特征、上下文特征,利用机器学习的浅层分类算法进行模型训练来判断是否是
真的事件句。目前常用的统计模型有朴素贝叶斯模型(Naive Bayes Model)、隐马尔科夫模
型(Hidden Markov Model)、最大熵模型(Maximum Entropy Model)、支持向量机(Support
Vector Machine)等。
然而,随着新闻内容越来越丰富,难免会出现触发词不够用的情况。另一方面,基于触
发词的方法严重依赖于 ACE 定义的事件类型,而 ACE 定义的事件类型总共才分为 7 大类、
30 多个小类,并且主要以生命、商业、交通等领域的事件为主,很显然这些事件类型太过
于通用和局限,已经不能很好的应对当今互联网信息日趋丰富带来的挑战。而事件类型的扩
展又需要耗费大量的人工劳动力,甚至需要语言学专家进行判别。针对这些问题,本文以事
件为驱动,首先识别出新闻的关键事件句当作 what 这一要素,然后基于事件句进一步挖掘
出 who、where 和 when 要素。
2 要素识别模型介绍
2.1 整体框架
新闻文本
预处理
1:预处理
分词、词性标
注、实体识别
事件要素识别
4w要素
3:事件要素识别
对关键事件句进行语义角
色标注和依存句法分析,
识别出4w要素
句子特征抽取
关键事件句识别
2:关键事件句识别
抽取每句的多维特征,加
权计算得分,选取得分最
高的n句话作为关键事件
句
图 1 新闻要素识别整体框架
Fig. 1 The general framework of news elements identification
105
图 1 是本文新闻要素识别的整体框架,总共分为三个模块:1)预处理;2)特征提取与
关键事件句识别;3)事件要素识别。下面开始对每个模块进行详细介绍。
2.2 预处理
110
预处理是自然语言处理任务的一个首要基本任务。针对从人民网爬取下来的新闻语料,
我们执行如图 2 所示的预处理流程。首先,对于新闻语料中的垃圾符号,我们采用正则表达
式匹配的方式进行过滤;针对分词、词性标注、实体识别,我们调用开源的哈工大 LTP 工
具进行处理。在分词阶段,由于分词工具自身的词库有限,为了提升分词的准确率,我们使
- 3 -
http://www.paper.edu.cn
中国科技论文在线
用搜狗输入法的词库对分词工具的词库进行扩充。
新闻语料
文本清洗:垃圾符
号过滤
分词、词性标注
扩充词库
命名实体、时间实
体识别
实体库
预处理后文档
图 2 文本预处理流程
Fig. 2 Text preprocessing process
2.3 特征提取与关键事件句识别
一篇新闻由很多个句子组成,关键事件句最能代表篇章新闻所想表述的事件和核心内容,
并且含有丰富的新闻事件要素信息。然而新闻中会出现很多的子事件句,这些事件句只是为
了作为核心事件的补充而被新闻作者随口提及。基于触发词和二元分类的候选事件句识别只
考虑了触发词和句子本身的结构和语义信息,忽略了篇章新闻的含义,因此这种方法很难将
这一类型的事件句剔除掉。在关键事件句找不准的前提下进行要素的抽取和识别,可想而知,
抽取出来的要素结果也未必是新闻作者真正想表述的,未必是用户最值得用户关心的内容。
为了识别出新闻文本中的关键事件句,我们将精力放在了句子特征、标题特征、正文特
征的发现和选择上,通过抽取出句子中这些重要的特征,比如标题的参考性度量、句子与标
题关联度、实体、句子长度、停用词频率等多维特征,分别计算每句话是关键句的得分。图
3 给出了关键事件句识别的整体框架。
115
120
125
- 4 -
中国科技论文在线
http://www.paper.edu.cn
文档集合词典
新闻:
标题和正文
预处理
标题可参考性
关键词抽取
Tf-idf
句子和标题相似度
句子长度
句子停用词频率
句子中实体种类和
个数
特征加权计算得分
关键事件句集合
在 获 取 到 一 篇 新 闻 之 后 , 首 先 我 们 对 新 闻 进 行 分 句 , 可 以 得 到 一 个 句 子 集 合
图 3 关键事件句抽取框架
Fig. 3 Key event sentence extraction framework
句子中抽取出特征向量如式(1):
S={,,…,,…,},其中 n 表示表示句子的个数,表示第 i 个句子实例。然后我们从
其中,k 表示我们在句子中提取的特征个数;表示第 i 个句子中第 j 个特征值。然后我们
其中,θ表示句子中第 j 个特征所拥有的权重。然后我们将_和θ做内积,得出句子的最
句集合_={,,}。作为新闻要素识别的前序研究,新闻关键事件句的识别为下
_=,,…,,…,,
=,,…,,…,,
确定一组权重参数如式(2):
终得分。并根据每句话得分进行降序排序,将得分最高的前三句话作为本篇新闻的关键事件
(1)
(2)
130
135
140
一步新闻要素的抽取做了准备。下面我们对计算句子得分时提取的多维特征展开说明。
2.3.1 句子与标题关联度特征
新闻由标题和正文组成,大多数情况下,新闻发布者往往会把相关新闻事件以及事件的
基本要素信息最先披露在标题中。由此可见,一般情况下新闻的标题就是新闻的主旨和中心。
这样的标题我们称其有可参考性,在识别正文句子的时候可以和标题进行比较,如果相似度
比较高,说明很可能就是事件句。但随着互联网和新媒体的发展,“标题党”出现了。所谓“标
题党”指网络中故意用较为夸张、耸动的文章标题以吸引网友点击观看文章的人[8]。这类人
写的新闻标题仅仅是为了吸引读者的眼球,鲜有表述与事件相关的信息。如果用这种标题做
参考去识别正文中的事件句,很显然和标题相似度越高的句子,越没有价值。因此,如果不
对这一情况做出处理则会对识别结果带来很大负面影响。为了解决这个问题,我们事先构建
整篇新闻的关键词集合,其目的是识别出一组能够描述新闻内容的关键词,以便于度量新闻
标题的信息参考价值。这里,我们采用的是 TF-IDF 算法。
145
150
- 5 -
中国科技论文在线
http://www.paper.edu.cn
表示文档中的总词数。逆向文件频率 IDF
(3)
(4)
(6)
(7)
文档个数;分母中的 1 代表平滑系数。当词语越稀有,在文章集合的出现次数越少,IDF 值
表示词语在文档集合中的重要程度,其计算方法如式(4)所示:
现频率和在文档集合的稀有程度共同决定,如式(5)所示:
(5)
当得到一篇新闻中所有词的 TF-IDF 值之后, 按照降序排序,选择前 k 个值最大的实义
1) 关键词抽取:TF-IDF 算法
TF-IDF(Term Frequency-Inverse Document Frequency)是一种衡量词语在文档集合中的
重要性的方法[9]。它的主要思想是:如果某个词语在文章中被反复强调,且很少出现在其他
文章里,则认为该词语在本文中具有代表性,能够将本文和其他文章区分开来。词频 TF 表
示词语在文档中的出现频率,其计算如式(3)所示:
,= #
其中,#w表示词w在文档d中出现的次数;∑ #w
∑ #
,
(,)=
其中,N 表示文档集合 D 中文档的数量;|∈:∈|表示在文档集合 D 中包含词语的
|∈:∈|,
越大,词语越重要。对于文档中的词语,其 TF-IDF 值等于 TF 乘以 IDF,它由词语的出
,=,∗(,).
a)统计每个词在新闻中出现的次数,并放入一个TF中,TF是一个 Map 对象:
={:,:,…,:,…,:},
其中,表示新闻中的第 i 个词,表示在该篇新闻中出现的次数;
b)到已有的DF文档集合词典中查询;DF记录了所有已经处理的文档中出现的
={:,:,…,:,…,:},
其中,表示在 N 篇新闻文档集合中包含词的文档个数。如果DF中存在,则将DF
中的累加 1 并进行更新;如果不存在,则在DF词典中新插入:1记录;
R={:,:,…,:,…,:},其中,表示这个词在新闻文档中的 TF-IDF
值。一般来说 TF-IDF 值越大,说明这个词在文中越重要。因此,我们对R按照 TF-IDF
a)分词后排除停用词,得到标题的实义词序列={,,…,,...,},其
中表示标题中第 i 个实义词;
b)针对每一个词,如果∈,则将得分 S 进行加 1;
c)将文档集合大小 N 累加 1 操作;
d)套用式(1~2)分别计算 TF 和 IDF 值,然后带入式(3)求得最终 TF-IDF。
通 过 以 上 步 骤 , 我 们 可 以 获 得 一 篇 新 闻 中 所 有 词 的 TF-IDF 值
值大小进行降序排序,并取排序后的前 k 个词为该篇新闻的关键词集合,如式(8)所示:
(8)
={,,…,,…,}.
2) 标题可参考性计算
在计算标题参考价值的时候,以往的策略如下面的步骤:
词构成关键词集 T。
下面介绍如何使用 TF-IDF 生成一篇新闻文档的关键词集合:
词的 DF 值:
c)最后将结果 S 与阈值 G 进行比较,如果 S>G,说明参考性为 1,否则参考性为 0。
这种方法比较简单,但存在一个问题:如果两个词是近义词,比如标题中有一个词“举
办”,而关键词词集合中没有一个词叫做“举办”,反而存在一个词叫做“举行”,很显然,“举
- 6 -
155
160
165
170
175
180
185
190
中国科技论文在线
很可能错过一个比较关键的词,进而影响标题可参考性的计算。
http://www.paper.edu.cn
办”和“举行”是近义词,但如果通过步骤 b 中∈这一条件进行判断的话,那么就
为了改善这个问题,我们研究了一种对标题词进行扩展的方法。对于标题中每个词,
我们寻找和相似度大于 0.5 的近义词,然后将和近义词一同放入集合_中,_如
其中,因为标题中的词;为第 j 个近义词。因此,扩展后的标题词集合如式(10):
_=,—,,…,,…, ,
式(9)所示:
(9)
然后再将这个扩展后的词集合_和关键词集合做交集,如果式(11)为真,即可
最终计算公式如式(12~13)所示。这里我们用参数α表示标题参考性,如果Score>(H
认为标题词在关键词集合中有提及。
(11)
(10)
_,_,
,…,_.
,…,_,
=
_∩≠ .
=∑
1
∩ ;
=1,>
0, 其他情况
.
是我们设定的阈值),则认为标题有参考性。
(12)
(13)
为了对标题词进行扩展,我们引入 Word2vec 词向量的词语相似度计算。Word2vec 是一
种由 Mikolov 等人在 2013 年提出的概率语言模型,用于处理文本的双层神经网络。它的输
入是文本语料,输出则是一组向量:该语料中词语的特征向量[10]。Word2vec 的目的和功用
是在向量空间内将词的向量按相似性进行分组。它能够识别出数学上的相似性。只要给出足
够的数据、用法和上下文,Word2vec 就能根据过去经验对词的意义进行高度准确的预测。
Word2vec 衡量词的余弦相似性,无相似性表示为 90 度角,而相似度为 1 的完全相似则
表示为 0 度角,即完全重合;例如,瑞典与瑞典完全相同,而挪威与瑞典的余弦距离为
0.760124,高于其他任何国家。图 4 是用 Word2vec 生成的“瑞典”的相关词列表。
图 4 Word2vec 生成的“瑞典”的相关词列表
Fig. 4 Word2vec generates a list of "Sweden" related words
为了使词库更丰富相似度更加准确,我们采用的训练语料集涵盖了维基百科中文语料以
及搜狗2012 年之前的新闻语料。这里我们使用Gensim 库来训练 Word2vec 词向量模型文件,
并调用相关接口获取词的近义词。训练过程如图 5 所示:
- 7 -
195
200
205
210
215
220
中国
国科技论
论文在线
线
http://
/www.paper.ed
du.cn
中文维基百科、
搜狐新闻语料
分词
标题词
使用gensim训练
word2vec
Word2vec模型文
文件
相似词集合
图 5 使用
Fig. 5 Use
用 Word2vec 训
word2vec to tr
训练近义词
ain synonyms
α=
3) 句子和标
通过上面两
1),如果正
标题关联度计
计算
们可以得到标
两个步骤,我们
标题的参考性
题具有参考价
价值的前提下
下(即
正文中的句子
子跟标题关联
联度越高,则
件句的可能性
性就越大。这
这里,
性α值。在标题
则句子是事件
我们
们通过计算句
句子和标题之
之间的余弦距
。对余弦距离
离来说,只考
考虑被
比较
较的文档中相
相同的单词,但
了一个通用的
的公式来计算
算余弦距离,
离来表示二者
者的关联度。
但是单词出现
很重要,把这
到式(17)所
现的频率也很
如式(14)到
()∗(
);
()
()=
⁄
()=∑
() ;(1)∗
=∑(()
∗())(⁄
= ∗(
()
,);
词;()是单
的权值()是
单词 j 在文档
文档中单词的
档中出现的频
档的数目;文
这些因素放在
所示:
(2));
频率;N 是训
是通过 TF-IDF
在一起,我们
就得
;
(
(14)
(
(15)
(
(16)
(
(17)
文档的
训练集合中文
F 公式计算而
而来;
到了
其中
(1,2)
中,j 是文档中
量;()是单
()是进行
数量
中第 j 个单词
单词出现的文
归一化。
2.3.2
2 正文句子
子长度特征
通常情况下
下句子越长,包
包含的信息越
越多,所以较
可能性就越大
大,我
较长的句子是
,如图 6 所示
是关键句的可
示。
们统
统计了人工标
标注的事件句
中句子长度
分布折线图,
句子长度
度对事件句
句的影响
17.20%
% 18%
15.00%
13.00%
%
比
占
句
件
事
0
0
9.00%
6%
0.80% 1%
% 1.10% 2.00%
% 2.50%
3
6
9
15
12
句子长度/字个数
句
数
18
21
24
27
30
33
- 8 -
5
225
0
230
235
0
240