总第 230 期 2013 年 第 2 期
中文微博突发事件检测研究 *
王 勇1 肖诗斌1,2 郭跇秀1 吕学强1,2
1 ( 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101)
2 ( 北京拓尔思信息技术股份有限公司 北京 100101)
从微博中准确而高效地挖掘出突发事件是近年来的研究热点
【摘要】
TF - PDF
算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤; 提出一种
算
法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的
实验结果表明,相比于传统的突发事件
作为突发事件
检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值
【关键词】
【分类号】TP311. 6
突发事件 突发词 文本过滤 绝对聚类
词增长率计算和
、
检测准确率为
通过词频统计
,召回率为
绝对聚类
92. 60%
85. 51%
0. 89。
值为
,
F
。
。
。
“
”
Research on Chinese Micro - blog Bursty Topics Detection
Wang Yong1 Xiao Shibin1
,
2 Guo Yixiu1
Lv Xueqiang1
,
2
Beijing Key Laboratory of Internet Culture and
Digital Dissemination Research
Beijing Information Science and Technology University
,
,
,
Beijing TRS Information Technology Co.
Ltd.
Beijing 100101
China
)
2 (
,
Beijing 100101
,
China
)
1 (
,
,
,
,
,
【Abstract】Much attention is paid to mining bursty topics accurately and efficiently from micro - blog nowadays. In this
paper
a set of burst terms are extracted by counting the term frequency
calculating the growth rate of the terms and using
Term Frequency - Proportional Document Frequency
TF - PDF
algorithm to measure the weight. And then micro - blog
texts are described with the burst terms. Analyzing the characteristic that bursty topics propagate in the platform of micro
,
(
)
- blog
the authors filter the texts that do not contribute to detect bursty topics. The paper proposes a novel clustering
strategy of “Absolute Clustering”to cluster the micro - blog texts. By figuring up the hot spot of the texts with weighted
value of reply and retweet number
the top 5 texts are extracted as the result of burst topics detection. The experiments
show that the precision is 92. 60%
the recall is 85. 51% and the F - measure is 0. 89. Contrast with the traditional meth-
,
od
the validity of the proposed method is proved.
【Keywords】Bursty topics Burst terms Filter Absolute clustering
1 引 言
微博是近年来出现的新兴媒体,和传统的博客不同,它是一个可以方便快捷地发布
传播以及获取信息
、
电子邮件以及各种客户端组件等发布和接收信息,
、
分享
、
的平台,用户可以通过网页
、WAP
页面
短信
、
实时消息软件
、
收稿日期:
收修改稿日期:
2013 - 01 - 18
2013 - 02 - 12
本文系国家自然科学基金项目
( 项目编号:
)
“
*
”
研究
索方法研究
”
研究成果之一
61171159
( 项目编号:
北京市教委科技发展计划重点项目暨北京市自然科学基金
、
B
) 和国家科技支撑计划课题
增强型搜索引擎关键技术研究与示范
KZ201311232037
61271304
)
类重点项目
国家自然科学基金项目
、
网页内容真实性评价
面向领域的互联网多模态信息精准搜
) 的
( 项目编号:
“
“
2011BAH11B03
”
基于本体的专利自动标引研究
( 项目编号:
”
“
。
XIANDAI TUSHU QINGBAO JISHU
57
情报分析与研究
2. 73
[
]
1
关注的人和被关注的人进行交流
、
目前,国外著名的微博服务有
腾讯微博
、
。
可以随时和朋友
论
博服务主要有网易微博
博等
至
一年底增长了
2012
。
6
据中国互联网信息中心(
年
CNNIC
月底,我国微博用户数达到
讨
、
,国内中文微
Twitter
搜狐微博和新浪微
、
) 统计显示,截
亿,较上
,网民使用率为
。
9. 5%
50. 9%
。
背对脸和原创性等特性
、
微博具有便捷性
尤其
是便捷性,不再像传统博客每次都要思考很久并且长
篇大论; 反之,用户可以随时随地发布自己的信息,这
然而,微博中充斥
给人们的信息交流带来质的飞跃
着各种各样的短信息,也给用户获取自己感兴趣的突
在数据爆炸的今天,用户不可
发话题增加了难度[
能通过阅读大量的微博信息来获取实时的突发事件
。
因此,从海量微博数据中挖掘出用户感兴趣的突发事
件,是非常有意义的
。
。
]
2
。
2 相关工作
目前,国内外针对文本流的突发事件研究已经有
不少成果,但是针对微博的突发事件研究,还是比较新
的领域
。
3
]
5 - 7
按照突发特征识别的顺序,突发事件识别可以分
]和以突发特征为中心的方
为以文本为中心的方法[
,
4
前者是先进行文本聚类,再在类中抽取出突
法[
发特征,进行突发事件的识别; 后者是先抽取出突发特
征,再对突发特征进行分组,使用突发特征组进行突发
事件的识别
。
。
以文本为中心的方法针对传统的文本,效果较好,
但是微博文本中含有很多垃圾信息,先进行聚类再进
行突发特征识别会引入很多噪声信息,并且在文本聚
类时还存在较多阈值的选取问题,阈值选取大多是根
据经验值来设定,对聚类结果比较敏感
以特征为中
心的方法避免了阈值的问题,但是没有很好地解决垃
圾信息的问题
。
。
140
在以文本为中心的事件识别中,由于微博受字数
个字以内) 导致本身内容短小,数据
针对数据稀疏性问题,目前常
]和进行主题建模
方
限制( 一般在
稀疏性问题比较严重
用的方法有基于语义扩展的方法[
的方法
法以及
主题建模方法中,最常用的是经典的
方法的一些扩展[
LDA
。
。
,
12
,
13
8 - 11
]
3
LDA
。
与以上方法不同,本文先进行突发词集抽取,使用
58 现代图书情报技术
突发词表示文本,然后分析微博描述突发事件的特性,
对文本进行过滤,去除垃圾信息,最后提出一种基于
的方法对文本进行聚类,返回各类簇中热
绝对聚类
”
“
度最大的微博作为突发事件的检测结果
。
本文研究的内容和话题检测与跟踪 (
,
TDT
,
Topic Detection Task
tion and Tracking
(
都是检测和组织系统预先未知的话题[
有很大不同,相对于
据中检测突发事件,并且还涉及到垃圾信息的处理
Topic Detec-
) 研 究 中 的 子 任 务 话 题 检 测
) 有一些共同之处,主要任务
不过两者也
而言,本文更侧重于从大规模数
TD
TD
。
]
14
。
3 微博文本特征表示
由于微博内容简短,传统的基于词的特征向量方
因
法易导致向量的稀疏性问题和空间高维性问题
此,本文使用突发词作为微博文本的特征,构建基于突
发词的微博文本特征向量
3. 1 突发词集抽取
: 突发词
。
。
定义
对于在某个时间段
1
(
Si
且
i > 0
) 内出现的任意一个词
,则称这个词为突
Fi
k≥δ1 、Ri
,
k ≥δ2
,
Wi
k ≥δ3
,
,如果
k
发词
。
其中,
Fi
,
k
Si - 1
Si
从时间段
在时间段
k
的三个阈值
述词
k
(
1
词的增长率
于上一个时间段
表示词
k
到时间段
内的
在时间段
内词
Si
TF - PDF
表述词
内的词频,
表示
Ri
Si
,
k
的增长率,
表示词
Wi
表示待设定
,
表
Ri
δ3
热点性
和
,
k
k
值,
δ1 、δ2
的
”
k≥δ2
,
重要性
”。
的
“
k
k
“
表述词
。Fi
k≥δ1
,
,
的
突发性
Wi
k≥δ3
,
) 词增长率计算
“
”
表示当前时间段
中的词
的增长率,计算方法如下:
Si
相对
k
的计算倾向于在别的文本中出现更少
算法是信息索引领域常用的权重算法 ,
区分
而突发事件中,出现突发词的文本数比
算法不利于突发词的权重计算
。
“
TF - IDF
。
TF - IDF
较高的词
”
IDF
其中
度
较多,使用
而
(
TF - PDF
Term Frequency - Proportional Document
Ri
,
k
Si - 1
{
Ri,k =
Fi,k
Fi - 1,k
NaN
当
Fi - 1
k = 0
,
,即当前时间段
词频很大,但是上一时间段
值为一个比较大的常数
Si - 1
NaN。
(
)
2
TF - PDF
权重计算
Fi - 1,k > 0
( 1)
Fi - 1,k
= 0
内出现的某个词
Si
内没有出现时,
Ri
,
k
k
的
) [
Frequency
法考虑到词在不同渠道(
]算法能很好地解决这个问题,并且该算
) 下的权重,本文使用
15
Channel
算法计算语料中词的权重,计算方法如下:
TF - PDF
( 2)
( 3)
D
Wj = ∑
c = 1
| Fjc | exp(
njc
Nc
)
| Fjc | =
Fjc
K
∑
k = 1
Fkc槡 2
为包含词
为词
的权重,在微博渠道(
j
Channel
的词频,
的文档数,
njc
Nc
为某个微博渠道中所有词的词数,
D
j
)
c
为所
为微
Wj
其中,
中,
为词
j
Fjc
有文档数,
K
博渠道的数目
根据定义
总第 230 期 2013 年 第 2 期
法国(
)
危机(
、
)
总统(
、
Who
Where
“
法国新 总 统 应 对 欧 债 危 机 考验 的 相 关 事 件;
(
)
汶川地震周年展开纪念的相关事件
地震(
、
纪念(
、
Where
What
What
Who
”
)
)
)
”
简约描述了
汶 川
,简约描述了针对
“
。
基于这个原则,一个描述突发事件的微博文本应
因此,本文过滤
三要素
该至少包含三个突发词(
。
掉语料中含突发词少于三个的微博文本
4. 2 微博文本聚类
)
”
“
。
使用突发词匹配法来计算微博文本之间的相似
度,在此基础上,传统的基于对象和聚类中心点的距离
的聚类算法不能有效地判断一个新文本和一个已有类
算法,实
的相似性
现基于突发词的微博文本聚类
) 突发词文本相似条件
和
向量表示,则它们之间的距离
(
1
对于突发词文本
因此,本文提出一种
,分别使用突发词
,
x
定义为:
绝对聚类
text i
text i
。
“
。
”
,
j
tdj
,
x
tdj,x = min( | texti,j | ,| texti,x | ) - texti,j × texti,x
( 6)
为两个文本向量的数量积
其中,
text i
j × text i
,
,
x
两
。
个微博文本的相似条件算法如下:
输入: 两个突发词文本 texti,j 和 texti,x ,| texti,j | 和 | texti,x |
分别表示两个突发词文本包含突发词的个数
输出: 是否满足相似条件( true / false)
①如果 | texti,j | > 3 且 | texti,x | > 3,则执行步骤②; 否则执
,抽取时间段
(
Si
i > 0
) 中所有满足突发
词条件的词,构成
内的突发词集,记为
BurstSet i。
。
1
Si
BurstSeti = { Termi1 ,Termi2 ,…Termi,j ,…}
其中,
Termi
表示时间段
,
j
Si
中的第
j
( 4)
个突发词
。
3. 2 文本的突发词向量
Si
对于某个时间段
用突发词向量表示为:
中的任意微博文本
,可以
,
j
text i
texti,j = { e1 ,e2 ,…eL }
( 5)
包含该时间段中的某个突发词
,
j
,
k
内突发词集为{ 汶
中 包 含 突 发 词 { 汶 川,纪
例如,如果
Si
其中,如果
,反之,
text i
ek = 1
则
ek = 0。
川,地 震,纪 念} ,文 本
,
念} ,则
}
1
,
0
1
text i
j =
,
{
text i
,
j
。
本文中,使用突发词表示的文本称为突发词文本
。
行步骤③。
4 微博突发事件检测
4. 1 微博文本过滤
微博中具有各种各样的信息,包括很多关于日常
感慨以及一些广告信息等,这些信息对突
生活的描述
、
同时,使用传统的
发事件的检测有很大的干扰作用
基于突发词的文本和聚类的方法将导致严重的数据稀
疏性问题
。
。
)
)
)
)
Why
Who
What
When
Where
“5W1H”
何事(
、
何人(
、
何地(
、
) ,后来增加了一个要素,即如何(
,被称为新闻六要素[
在 新 闻 领 域,描 述 新 闻 的 要 素 一 般 包 括: 何 时
(
何
、
) ,用英
故(
文字头简称
微博内
容由于受字数限制,往往不能完整地对突发事件进行
描述
。
通过对新浪微博和网易微博中的突发事件进行分
析,本文认为,如果一条微博描述了一个突发事件,那
如
么它至少包 含
三 个 要 素
,即 何 地
How
]
何 人
何 事
。
16
”
、
、
。
“
②当 tdj,x ≤2 时,则 texti,j 和 texti,x 满足一定条件的相似,
返回 true; 否则不相似,返回 false。
③当 tdj,x < 2 时,则 texti,j 和 texti,x 满足一定条件的相似,
返回 true; 否则不相似,返回 false。
(
) 基于
2
“
绝对聚类
绝对聚类
的微博文本聚类算法
”
”
“
的思想是: 如果某一个对象属于既有
的一个类,那么它应该和这个类中的每一个对象都相
似,即
基于
。
算法)
”
的微博突发词文本聚类算法(
属于这个类,否则不属于这个类
ACFD
“
绝对
绝对聚类
“
流程如下:
”
输入: 突发词文本集 Corpus
输出: 突发词文本类簇集 Cluster
①任意选择 Corpus 中的两个突发词文本 texti,j 和 texti,k ,
如果它们满足一定的相似条件( 即一定条件的相似) ,则把
它们归为一类 Cluster1 ; 否则,将它们分别归类为 Cluster1 和
Cluster2 。将 texti,j 和 texti,k 从 Corpus 中移除。
②对于 Corpus 中的任意突发词文本 texti,x ,如果存在某
XIANDAI TUSHU QINGBAO JISHU
59
情报分析与研究
个类 Clusterk ,texti,x 和 Clusterk 中的所有文本都满足一定的
相似条件,则执行步骤③; 否则执行步骤④。
③将 texti,x 归入类 Clusterk 中,从 Corpus 中移除texti,x 。
④新建一个类 Clusterk ,将 texti,x 归入其中,并从 Corpus
中移除 texti,x 。
⑤循环执行步骤② - 步骤④,直到 Corpus 为空,结束。
4. 3 突发事件检测
2
: 热度
定义
热度是对一个事件被关注程度的量化
突发事件在传播过程中会产生很大的影响,在微
博平台中则具体表现为描述突发事件的微博的转发数
因此,使用微博的转发数和评论数衡量单
和评论数
条微博的热度,计算方法如下:
。
。
Hot( tweet) = λ1 × N( replyCount) + λ2 × N( retweetCount)
( 7)
(
其中,
N
(
单条微博的评论数和转发数,
λ1
replyCount
) 和
N
和
λ2
retweetCount
) 分别表示
为两个参数且
λ1 + λ2 = 1。
5 实验结果及分析
5. 1 实验设置
虫跟踪下载工具获取
本实验数据来源于网易微博和新浪微博,利用爬
月
日至
以一天为一个时
日这一天进行微博突发
月
1
个用户的微博数据
303 581
2012
2012
年
年
年
月
。
5
5
2012
5
12
日共
30
间段,主要对
事件的检测
。
当前使用最多的话题建模模型是
模型,常用
模型
K - means
聚类的方法作为本文方法 的 对 比 实 验
LDA
],使用基于
聚类[
LDA
3
K - means
的聚类方法是
和
方法
5. 2 突发词集抽取结果
和
为了使阈值
。
δ3
”
和
”、“
δ1 、δ2
突发性
重要性
事件检测,采用一种动态阈值法,根据突发词的
性
频最大的第
的第
50
大的第
个词的
发词作为时间段
能够适用于不同时间段的
热点
中词
设置为增长率最大
权重最
个突
“
个词的词频值,
δ2
个词的增长率值,
δ3
TF - PDF
。
中的突发词集
TF - PDF
即,最终抽取
设置为
值
,分别将
设置为
100
“
”
30
30
δ1
Si
Si
。
当前实验时间段中各个突发词及其
TF - PDF
值
如表
1
所示
。
60 现代图书情报技术
表
1
各突发词及
TF - PDF
值
TF - PDF
值
突发词
TF - PDF
值
0. 0502
0. 0521
0. 0536
0. 0557
0. 0569
0. 0585
0. 0606
0. 0640
0. 0738
0. 0788
0. 0832
0. 0957
0. 1128
0. 1225
0. 1849
真相
法律
记得
山东
纪念
运动
规则
专家
文化
美女
发现
人生
朋友
世界
社会
0. 0509
0. 0530
0. 0545
0. 0560
0. 0582
0. 0586
0. 0616
0. 0689
0. 0750
0. 0817
0. 0951
0. 1043
0. 1158
0. 1578
0. 2161
突发词
天下
民族
感谢
关系
骆家辉
官方
意识
责任
权利
公务员
生命
女人
云南
汶川
地震
对微博进行突发词特征表示,并过滤突发词少于
三个的微博文本
5. 3 聚类结果评测与分析
。
对于每个突发词文本,聚类结果只有
种情况,分
4
(
CT
Cluster Text
) : 突发词文本被正确地归为
别如下:
)
1
某个类
(
。
)
(
2
MT
(
Miss Text
) : 突发词文本被错误地归为某
个类
。
(
3
)
(
FT
Fail Text
) : 突发词文本属于某个类,但是
没有归入那个类
。
(
)
4
(
NC
Not Cluster
) : 突发词文本不属于任何现有
的类
。
准确率和召回率分别定义为:
CT
CT + MT
CT
准确率( Precision) =
× 100%
( 8)
召回率( Recall) =
× 100%
( 9)
CT + MT + FT
F 值( F - measure) =
2 × 准确率 × 召回率
准确率 + 召回率
( 10)
本文 利 用
和
K - means
LDA
评测结果分别如表
法中
值为
k
20、25、30、35、40、45
ACFD
算 法 和 对 比 实 验 的 方 法 ( 基 于
聚类的方法) 进行分析,聚类结果和
方
其中
和表
所示
K - means
5
3
。
,
LDA
2
模型中隐主题数分别为
和
可以看出,
50。
3
由表
ACFD
算法能够比较准确地对突
发词文本进行聚类,对比实验方法在某个隐主题值的
设置下,如隐主题值为
值; 但
F
是在某些条件下,如隐主题值为
值不是
时,也能获取较高的
时,
F
和
10
30
35
5、10、15、
5
)
)
)
)
)
)
)
)
)
)
10
15
20
25
30
35
40
45
50
方 法
K - means + LDA
K - means + LDA
K - means + LDA
K - means + LDA
(
K - means + LDA
(
(
(
(
(
(
(
(
(
K - means + LDA
K - means + LDA
K - means + LDA
K - means + LDA
K - means + LDA
ACFD
方法
K - means + LDA
K - means + LDA
K - means + LDA
K - means + LDA
(
K - means + LDA
(
(
(
(
(
(
(
(
(
K - means + LDA
K - means + LDA
K - means + LDA
K - means + LDA
K - means + LDA
ACFD
5
)
)
)
)
)
)
)
)
)
)
10
15
20
25
30
35
40
45
50
表
2
聚类实验结果
CT
723
744
577
680
691
538
533
579
717
700
726
MT
123
99
99
158
47
141
321
154
147
142
58
FT
102
105
272
110
210
269
94
215
84
106
65
NC
0
0
0
0
0
0
0
0
0
0
99
表
3
聚类结果评测
Precision
Recall
F - measure
85. 46%
88. 25%
85. 35%
81. 14%
93. 63%
79. 23%
62. 41%
78. 99%
82. 98%
83. 13%
92. 60%
76. 26%
78. 48%
60. 86%
71. 73%
72. 89%
56. 75%
56. 22%
61. 07%
75. 63%
73. 83%
85. 51%
0. 80
0. 83
0. 71
0. 76
0. 82
0. 66
0. 59
0. 68
0. 79
0. 78
0. 89
F
F
。
由此表明,
LDA
值的影响较大
值也有较大的变
模型中经验主义的隐主题数值对聚
相比而言,
算法在聚类前不
值,也不用根据经验主义设置隐主题
很理想,其他隐主题值下聚类结果的
化
类
用设置固定的
值,同时还能保证较高的
5. 4 突发事件检测结果与分析
值,优于对比实验的方法
ACFD
。
。
F
k
5
从
ACFD
聚类结果中选择类簇最大的
当前的突发事件类,然后分别从这
热度最大的一条微博来代表当前的突发事件
式(
对突发事件的传播的作用,参数
个类代表
个事件类中抽取
使用公
) 计算单条微博热度,考虑到微博中转发和回复
分别设置为
类突发事件中,表示每类事件的突发词如
和
。
λ1
λ2
5
7
0. 7、0. 3。5
表
所示:
4
总第 230 期 2013 年 第 2 期
。
”
“
从表
ACFD
三要素
的假设
中的突发事件和事件的突发词描述可以看
4
算法能够比较准确地发现微博突发事件,事
出,
同时,
件的突发词描述也大致符合
微博中的突发事件也有其自身的特点: 突发事件往往
关注的人比较多( 热度比较大) ; 通常,社会名人( 如,
) 发布的微博,成为突发事件的可能性比一
突发事件
般用户的大,即使有时候发布的只是一般事件的微博
以下对各事件进行简要的分析:
描 述 的 是
云 南 巧 家 县 爆 炸 案
1
由于此案件涉及到社会安全,同时网民对云南官
件
方给出的关于该事件的调查报告提出了质疑,一时间
在微博上引起很大的关注
) 突 发 事 件
”。
“
。
3
1
(
。
(
2
) 突发事件
描述的是
2
相关事件
云南美女公务员要求
“
事件中女公务员由于对
饭店女老板下跪
饭店女老板不满而要求其下跪道歉,并威胁恐吓,在微
博中一经发布,立刻遭到网民口诛笔伐,造成很大的社
会影响
”
。
。
) 突发事件
(
3
3
。
该微博总结了国人在权利
描述的是任志强关于中国人精神
法律和
现状的总结
、
由于任志强是明星用户,微
规则之间的取舍和关系
博发布后得到广泛的评论和转发,因而被本文检测为
突发事件
意识
、
。
。
(
4
4
。
”
“
事件
) 突发事件
描述的是
骆家辉跪幼
骆
家辉作为美籍华裔在华官员,在中国的一言一行都受
到广泛的关注,在和某专家的会面中,骆家辉半跪着跟
一个小女孩聊天,显示了官员亲切和善的一面
这和
的作风形成鲜明对比,获得网友
中国的
的一片赞扬; 另外也有人对当前我国官员的一些作风
提出了批评
跪官不跪幼
“
”
。
。
(
5
) 突发事件
描述的是
的相关
5
日是汶川地震的纪念日,这是一个
纪念汶川地震
事件,由于
全国性的重大事件,所以必然引起网民的热切关注
月
“
”
12
5
。
6 结 语
热度
表
4
微博突发事件检测结果
突发
事件
1 云南( Where) 、官方( Who) 、社会( What) 铁幕真相
事件突发词描述
作者
我是居民非公民
2
云南( Where) 、公务员( Who) 、
美女( Who) 、下跪( What)
权利( What) 、意识( What) 、规则( What) 、
法律( What) 、文化( What)
3
4 骆家辉( Who) 、发现( What) 、专家( Who) 半瓶酒
5 汶川( Where) 、地震( Who) 、纪念( What) 张蜀梅
任志强
0
( 注: 其中突发词加黑,
Where、Who
和
What
三要素为人工标注
001
131. 2
200. 0
975. 4
145. 6
166. 9
)
。
本文通过分析微博自身内容的简短性和突发事件
在微博中的传播特性,使用突发词构建文本的特征向
量,提出了一种基于
的微博突发词文本聚
类算法(
实验证明,
算法能够比较准确
同时,如果需要检测更
地实现微博突发事件的检测
多的突发事件,可以通过设置突发词集中词的个数来
绝对聚类
ACFD
ACFD
“
”
。
。
)
XIANDAI TUSHU QINGBAO JISHU
61
[
8
]
Erdmann M
,
Nakayama K
,
Hara T
,
et al. Improving the Extraction
of Bilingual Terminology from Wikipedia
[
]
J
Communications and Applications
. ACM Transactions on
,
5
2009
,
,
Multimedia Computing
(
) :
4
1 - 17.
[
9
]
Bollegala D
,
Matsuo Y
,
tween Implicit Semantic Relation Using Web Search Engines
Ishizuka M. Measuring the Similarity Be-
]
[
C
.
:
In
Proceedings of the 2nd ACM International Conference on Web
:
,
,
(
)
Search and Data Mining
WSDM’09
. New York
USA
NY
,
2009
:
ACM
104 - 113.
[
] 李海芳,史俊冰,段利国,等
10
一种基于含糊同义词的查询扩展
.
计算机应用与软件,
,
28
(
12
) :
439 - 443.
(
Li
]
方法[
.
J
,
Haifang
Shi Junbing
,
et. al. A Query Expansion
Method Based on Vague Synonyms
. Computer Application and
Software
,
2011
,
28
(
12
) :
439 - 443.
)
[
11
] 赵辉,刘怀亮,范云杰,等
情报理论与实践,
2012
,
]
[
J
.
,
.
Huailiang
Fan Yunjie
一种基于语义的中文文本分类算法
,
35
(
3
) :
115 - 118.
(
Zhao Hui
,
Liu
et. al. A Chinese Text Classfication Algo-
[
]
J
. Information Studies
Theory & Appli-
:
2011
,
Duan Liguo
[
]
J
rithm Based on Semantics
,
cation
,
35
(
3
) :
115 - 118.
)
2012
,
,
[
]
12
[
]
13
Blei D M
Ng A Y
Jordan M I. Latent Dirichlet Allocation
[
]
.
J
:
,
3
993 - 1022.
,
2003
:
The Journal of Machine Learning Research
,
Nallapati R
Model for Topics and Influence in Blogs
Cohen W. Link - PLSA - LDA
[
]
C
A New Unsupervised
:
Proceedings of the
. In
International Conference for Weblogs and Social Media. 2008
:
84 -
92.
Zhang Yu
[
]
J
. Journal of
[
] 洪宇,张宇,刘挺,等
14
中文信息学报,
2007
]
话题检测与跟踪的评测及研究综述[
J
.
.
,
,
21
Hong Yu
71 - 87.
,
) :
6
Liu
(
(
,
Ting
et al. Topic Detection and Tracking Review
Chinese Information Processing
,
2007
,
21
(
6
) :
71 - 87.
)
Bun K K
,
Ishizuka M. Topic Extraction from News Archive Using
[
]
15
TF* PDF Algorithm
[
]
C
. In
:
Proceedings of the 3rd International
Conference on Web Information Systems Engineering. 2002
]
新闻五 要 素[
] 百度百科
[
EB / OL
2013 - 01 - 03
. http
]
.
.
[
16
:
/ /
:
73 - 82.
baike. baidu. com / view /754050. htm.
(
Baidu Baike. The Five El-
ements of News
EB / OL
[
[
]
.
baidu. com / view /754050. htm.
2013 - 01 - 03
)
]
. http
:
/ / baike.
( 作者
:
E - mail
wy514674793@ 126. com
)
情报分析与研究
。
(
实现
然而,本文还有一些可以改进的地方:
) 突发词集的抽取
可以采用多种权重算法相
结合,从而得到含信息量更多,更能准确地反应突发事
件特征的突发词集
。
1
。
(
) 突发事件的描述
目前还没有很好的方法能
准确地对突发事件进行描述,这也是下一步将
、
。
2
够自动
要研究的工作
。
参考文献:
[
1
] 中国互联网信息中心
第
.
30
次中国互联网络发展状况统计报
]
告[
R
.
北京: 中国互联网络信息中 心 ,
2012.
(
China Internet
Network Information Center. The 30th Statistical Report of China
[
2
Internet Development
[
]
R
] 原福永,冯静,符茜茜
(
图书情报技术,
.
2012
6
. Beijing
:
CNNIC
,
2012.
)
]
微博用户的影响力指数模型[
J
.
) :
,
(
60 - 64.
Yuan Fuyong
现代
,
Fu
Qianqian. Influence Index Model of Micro - blog User
(
Technology of Library and Information Service
2012
,
)
64.
[
3
]
,
Diao Q M
[
]
C
logs
. In
Jiang J
:
[
4
]
Wang X H
,
,
Zhu F D. Finding Bursty Topics from Microb-
,
:
Proceedings of ACL
,
et al. Mining Correlated Bursty Top-
536 - 544.
Zhai C X
Hu X
2012
,
ics Patterns from Coordinated Text Streams
[
]
C
. In
:
Proceedings of
Feng Jing
[
]
J
) :
. New
6
60 -
the 13th ACM SIGKDD International Conference on Knowledge Dis-
,
) ,
,
(
KDD’07
California
USA. New York
covery and Data Mining
:
,
:
NY
ACM
784 - 793.
USA
,
,
2007
,
Du Y Y
He Y X
Tian Y
Based on User Relationship
,
et al. Microblog Bursty Topic Detection
[
]
C
Proceedings of the 6th IEEE
. In
:
Joint International Information Technology and Artificial Intelligence
Conference
,
Du Y Y
(
ITAIC
,
)
:
. 2011
260 - 263.
Wu W
He Y X
,
et al. Microblog Bursty Feature Detec-
tion Based on Dynamics Model
[
]
C
. In
:
Proceedings of the Interna-
tional Conference on Systems and Informatics
(
)
ICSAI
. 2012
:
2304
[
5
]
[
6
]
- 2308.
[
7
]
Fung G P C
,
Yu J X
,
Detection in Text Streams
Yu P S
[
]
C
,
et al. Parameter Free Bursty Events
:
Proceedings of the 31st Interna-
. In
tional Conference on Very Large Data Bases. 2005
:
181 - 192.
62 现代图书情报技术