logo资料库

中文微博突发事件检测研究.pdf

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
总第 230 期 2013 年 第 2 期 中文微博突发事件检测研究 * 王 勇1 肖诗斌1,2 郭跇秀1 吕学强1,2 1 ( 北京信息科技大学网络文化与数字传播北京市重点实验室 北京 100101) 2 ( 北京拓尔思信息技术股份有限公司 北京 100101) 从微博中准确而高效地挖掘出突发事件是近年来的研究热点 【摘要】 TF - PDF 算法抽取突发词集,使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤; 提出一种 算 法,对描述突发事件的文本进行聚类,并通过微博的回复数和转发数加权计算热度,检测各类事件中热度最大的 实验结果表明,相比于传统的突发事件 作为突发事件 检测方法,该方法能够比较准确地检测到微博中的突发事件,有一定的应用价值 【关键词】 【分类号】TP311. 6 突发事件 突发词 文本过滤 绝对聚类 词增长率计算和 、 检测准确率为 通过词频统计 ,召回率为 绝对聚类 92. 60% 85. 51% 0. 89。 值为 , F 。 。 。 “ ” Research on Chinese Micro - blog Bursty Topics Detection Wang Yong1 Xiao Shibin1 , 2 Guo Yixiu1 Lv Xueqiang1 , 2 Beijing Key Laboratory of Internet Culture and Digital Dissemination Research Beijing Information Science and Technology University , , , Beijing TRS Information Technology Co. Ltd. Beijing 100101 China ) 2 ( , Beijing 100101 , China ) 1 ( , , , , , 【Abstract】Much attention is paid to mining bursty topics accurately and efficiently from micro - blog nowadays. In this paper a set of burst terms are extracted by counting the term frequency calculating the growth rate of the terms and using Term Frequency - Proportional Document Frequency TF - PDF algorithm to measure the weight. And then micro - blog texts are described with the burst terms. Analyzing the characteristic that bursty topics propagate in the platform of micro , ( ) - blog the authors filter the texts that do not contribute to detect bursty topics. The paper proposes a novel clustering strategy of “Absolute Clustering”to cluster the micro - blog texts. By figuring up the hot spot of the texts with weighted value of reply and retweet number the top 5 texts are extracted as the result of burst topics detection. The experiments show that the precision is 92. 60% the recall is 85. 51% and the F - measure is 0. 89. Contrast with the traditional meth- , od the validity of the proposed method is proved. 【Keywords】Bursty topics Burst terms Filter Absolute clustering 1 引 言 微博是近年来出现的新兴媒体,和传统的博客不同,它是一个可以方便快捷地发布 传播以及获取信息 、 电子邮件以及各种客户端组件等发布和接收信息, 、 分享 、 的平台,用户可以通过网页 、WAP 页面 短信 、 实时消息软件 、 收稿日期: 收修改稿日期: 2013 - 01 - 18 2013 - 02 - 12 本文系国家自然科学基金项目 ( 项目编号: ) “ * ” 研究 索方法研究 ” 研究成果之一 61171159 ( 项目编号: 北京市教委科技发展计划重点项目暨北京市自然科学基金 、 B ) 和国家科技支撑计划课题 增强型搜索引擎关键技术研究与示范 KZ201311232037 61271304 ) 类重点项目 国家自然科学基金项目 、 网页内容真实性评价 面向领域的互联网多模态信息精准搜 ) 的 ( 项目编号: “ “ 2011BAH11B03 ” 基于本体的专利自动标引研究 ( 项目编号: ” “ 。 XIANDAI TUSHU QINGBAO JISHU 57
情报分析与研究 2. 73 [ ] 1 关注的人和被关注的人进行交流 、 目前,国外著名的微博服务有 腾讯微博 、 。 可以随时和朋友 论 博服务主要有网易微博 博等 至 一年底增长了 2012 。 6 据中国互联网信息中心( 年 CNNIC 月底,我国微博用户数达到 讨 、 ,国内中文微 Twitter 搜狐微博和新浪微 、 ) 统计显示,截 亿,较上 ,网民使用率为 。 9. 5% 50. 9% 。 背对脸和原创性等特性 、 微博具有便捷性 尤其 是便捷性,不再像传统博客每次都要思考很久并且长 篇大论; 反之,用户可以随时随地发布自己的信息,这 然而,微博中充斥 给人们的信息交流带来质的飞跃 着各种各样的短信息,也给用户获取自己感兴趣的突 在数据爆炸的今天,用户不可 发话题增加了难度[ 能通过阅读大量的微博信息来获取实时的突发事件 。 因此,从海量微博数据中挖掘出用户感兴趣的突发事 件,是非常有意义的 。 。 ] 2 。 2 相关工作 目前,国内外针对文本流的突发事件研究已经有 不少成果,但是针对微博的突发事件研究,还是比较新 的领域 。 3 ] 5 - 7 按照突发特征识别的顺序,突发事件识别可以分 ]和以突发特征为中心的方 为以文本为中心的方法[ , 4 前者是先进行文本聚类,再在类中抽取出突 法[ 发特征,进行突发事件的识别; 后者是先抽取出突发特 征,再对突发特征进行分组,使用突发特征组进行突发 事件的识别 。 。 以文本为中心的方法针对传统的文本,效果较好, 但是微博文本中含有很多垃圾信息,先进行聚类再进 行突发特征识别会引入很多噪声信息,并且在文本聚 类时还存在较多阈值的选取问题,阈值选取大多是根 据经验值来设定,对聚类结果比较敏感 以特征为中 心的方法避免了阈值的问题,但是没有很好地解决垃 圾信息的问题 。 。 140 在以文本为中心的事件识别中,由于微博受字数 个字以内) 导致本身内容短小,数据 针对数据稀疏性问题,目前常 ]和进行主题建模 方 限制( 一般在 稀疏性问题比较严重 用的方法有基于语义扩展的方法[ 的方法 法以及 主题建模方法中,最常用的是经典的 方法的一些扩展[ LDA 。 。 , 12 , 13 8 - 11 ] 3 LDA 。 与以上方法不同,本文先进行突发词集抽取,使用 58 现代图书情报技术 突发词表示文本,然后分析微博描述突发事件的特性, 对文本进行过滤,去除垃圾信息,最后提出一种基于 的方法对文本进行聚类,返回各类簇中热 绝对聚类 ” “ 度最大的微博作为突发事件的检测结果 。 本文研究的内容和话题检测与跟踪 ( , TDT , Topic Detection Task tion and Tracking ( 都是检测和组织系统预先未知的话题[ 有很大不同,相对于 据中检测突发事件,并且还涉及到垃圾信息的处理 Topic Detec- ) 研 究 中 的 子 任 务 话 题 检 测 ) 有一些共同之处,主要任务 不过两者也 而言,本文更侧重于从大规模数 TD TD 。 ] 14 。 3 微博文本特征表示 由于微博内容简短,传统的基于词的特征向量方 因 法易导致向量的稀疏性问题和空间高维性问题 此,本文使用突发词作为微博文本的特征,构建基于突 发词的微博文本特征向量 3. 1 突发词集抽取 : 突发词 。 。 定义 对于在某个时间段 1 ( Si 且 i > 0 ) 内出现的任意一个词 ,则称这个词为突 Fi k≥δ1 、Ri , k ≥δ2 , Wi k ≥δ3 , ,如果 k 发词 。 其中, Fi , k Si - 1 Si 从时间段 在时间段 k 的三个阈值 述词 k ( 1 词的增长率 于上一个时间段 表示词 k 到时间段 内的 在时间段 内词 Si TF - PDF 表述词 内的词频, 表示 Ri Si , k 的增长率, 表示词 Wi 表示待设定 , 表 Ri δ3 热点性 和 , k k 值, δ1 、δ2 的 ” k≥δ2 , 重要性 ”。 的 “ k k “ 表述词 。Fi k≥δ1 , , 的 突发性 Wi k≥δ3 , ) 词增长率计算 “ ” 表示当前时间段 中的词 的增长率,计算方法如下: Si 相对 k 的计算倾向于在别的文本中出现更少 算法是信息索引领域常用的权重算法 , 区分 而突发事件中,出现突发词的文本数比 算法不利于突发词的权重计算 。 “ TF - IDF 。 TF - IDF 较高的词 ” IDF 其中 度 较多,使用 而 ( TF - PDF Term Frequency - Proportional Document Ri , k Si - 1 { Ri,k = Fi,k Fi - 1,k NaN 当 Fi - 1 k = 0 , ,即当前时间段 词频很大,但是上一时间段 值为一个比较大的常数 Si - 1 NaN。 ( ) 2 TF - PDF 权重计算 Fi - 1,k > 0 ( 1) Fi - 1,k = 0 内出现的某个词 Si 内没有出现时, Ri , k k 的
) [ Frequency 法考虑到词在不同渠道( ]算法能很好地解决这个问题,并且该算 ) 下的权重,本文使用 15 Channel 算法计算语料中词的权重,计算方法如下: TF - PDF ( 2) ( 3) D Wj = ∑ c = 1 | Fjc | exp( njc Nc ) | Fjc | = Fjc K ∑ k = 1 Fkc槡 2 为包含词 为词 的权重,在微博渠道( j Channel 的词频, 的文档数, njc Nc 为某个微博渠道中所有词的词数, D j ) c 为所 为微 Wj 其中, 中, 为词 j Fjc 有文档数, K 博渠道的数目 根据定义 总第 230 期 2013 年 第 2 期 法国( ) 危机( 、 ) 总统( 、 Who Where “ 法国新 总 统 应 对 欧 债 危 机 考验 的 相 关 事 件; ( ) 汶川地震周年展开纪念的相关事件 地震( 、 纪念( 、 Where What What Who ” ) ) ) ” 简约描述了 汶 川 ,简约描述了针对 “ 。 基于这个原则,一个描述突发事件的微博文本应 因此,本文过滤 三要素 该至少包含三个突发词( 。 掉语料中含突发词少于三个的微博文本 4. 2 微博文本聚类 ) ” “ 。 使用突发词匹配法来计算微博文本之间的相似 度,在此基础上,传统的基于对象和聚类中心点的距离 的聚类算法不能有效地判断一个新文本和一个已有类 算法,实 的相似性 现基于突发词的微博文本聚类 ) 突发词文本相似条件 和 向量表示,则它们之间的距离 ( 1 对于突发词文本 因此,本文提出一种 ,分别使用突发词 , x 定义为: 绝对聚类 text i text i 。 “ 。 ” , j tdj , x tdj,x = min( | texti,j | ,| texti,x | ) - texti,j × texti,x ( 6) 为两个文本向量的数量积 其中, text i j × text i , , x 两 。 个微博文本的相似条件算法如下: 输入: 两个突发词文本 texti,j 和 texti,x ,| texti,j | 和 | texti,x | 分别表示两个突发词文本包含突发词的个数 输出: 是否满足相似条件( true / false) ①如果 | texti,j | > 3 且 | texti,x | > 3,则执行步骤②; 否则执 ,抽取时间段 ( Si i > 0 ) 中所有满足突发 词条件的词,构成 内的突发词集,记为 BurstSet i。 。 1 Si BurstSeti = { Termi1 ,Termi2 ,…Termi,j ,…} 其中, Termi 表示时间段 , j Si 中的第 j ( 4) 个突发词 。 3. 2 文本的突发词向量 Si 对于某个时间段 用突发词向量表示为: 中的任意微博文本 ,可以 , j text i texti,j = { e1 ,e2 ,…eL } ( 5) 包含该时间段中的某个突发词 , j , k 内突发词集为{ 汶 中 包 含 突 发 词 { 汶 川,纪 例如,如果 Si 其中,如果 ,反之, text i ek = 1 则 ek = 0。 川,地 震,纪 念} ,文 本 , 念} ,则 } 1 , 0 1 text i j = , { text i , j 。 本文中,使用突发词表示的文本称为突发词文本 。 行步骤③。 4 微博突发事件检测 4. 1 微博文本过滤 微博中具有各种各样的信息,包括很多关于日常 感慨以及一些广告信息等,这些信息对突 生活的描述 、 同时,使用传统的 发事件的检测有很大的干扰作用 基于突发词的文本和聚类的方法将导致严重的数据稀 疏性问题 。 。 ) ) ) ) Why Who What When Where “5W1H” 何事( 、 何人( 、 何地( 、 ) ,后来增加了一个要素,即如何( ,被称为新闻六要素[ 在 新 闻 领 域,描 述 新 闻 的 要 素 一 般 包 括: 何 时 ( 何 、 ) ,用英 故( 文字头简称 微博内 容由于受字数限制,往往不能完整地对突发事件进行 描述 。 通过对新浪微博和网易微博中的突发事件进行分 析,本文认为,如果一条微博描述了一个突发事件,那 如 么它至少包 含 三 个 要 素 ,即 何 地 How ] 何 人 何 事 。 16 ” 、 、 。 “ ②当 tdj,x ≤2 时,则 texti,j 和 texti,x 满足一定条件的相似, 返回 true; 否则不相似,返回 false。 ③当 tdj,x < 2 时,则 texti,j 和 texti,x 满足一定条件的相似, 返回 true; 否则不相似,返回 false。 ( ) 基于 2 “ 绝对聚类 绝对聚类 的微博文本聚类算法 ” ” “ 的思想是: 如果某一个对象属于既有 的一个类,那么它应该和这个类中的每一个对象都相 似,即 基于 。 算法) ” 的微博突发词文本聚类算法( 属于这个类,否则不属于这个类 ACFD “ 绝对 绝对聚类 “ 流程如下: ” 输入: 突发词文本集 Corpus 输出: 突发词文本类簇集 Cluster ①任意选择 Corpus 中的两个突发词文本 texti,j 和 texti,k , 如果它们满足一定的相似条件( 即一定条件的相似) ,则把 它们归为一类 Cluster1 ; 否则,将它们分别归类为 Cluster1 和 Cluster2 。将 texti,j 和 texti,k 从 Corpus 中移除。 ②对于 Corpus 中的任意突发词文本 texti,x ,如果存在某 XIANDAI TUSHU QINGBAO JISHU 59
情报分析与研究 个类 Clusterk ,texti,x 和 Clusterk 中的所有文本都满足一定的 相似条件,则执行步骤③; 否则执行步骤④。 ③将 texti,x 归入类 Clusterk 中,从 Corpus 中移除texti,x 。 ④新建一个类 Clusterk ,将 texti,x 归入其中,并从 Corpus 中移除 texti,x 。 ⑤循环执行步骤② - 步骤④,直到 Corpus 为空,结束。 4. 3 突发事件检测 2 : 热度 定义 热度是对一个事件被关注程度的量化 突发事件在传播过程中会产生很大的影响,在微 博平台中则具体表现为描述突发事件的微博的转发数 因此,使用微博的转发数和评论数衡量单 和评论数 条微博的热度,计算方法如下: 。 。 Hot( tweet) = λ1 × N( replyCount) + λ2 × N( retweetCount) ( 7) ( 其中, N ( 单条微博的评论数和转发数, λ1 replyCount ) 和 N 和 λ2 retweetCount ) 分别表示 为两个参数且 λ1 + λ2 = 1。 5 实验结果及分析 5. 1 实验设置 虫跟踪下载工具获取 本实验数据来源于网易微博和新浪微博,利用爬 月 日至 以一天为一个时 日这一天进行微博突发 月 1 个用户的微博数据 303 581 2012 2012 年 年 年 月 。 5 5 2012 5 12 日共 30 间段,主要对 事件的检测 。 当前使用最多的话题建模模型是 模型,常用 模型 K - means 聚类的方法作为本文方法 的 对 比 实 验 LDA ],使用基于 聚类[ LDA 3 K - means 的聚类方法是 和 方法 5. 2 突发词集抽取结果 和 为了使阈值 。 δ3 ” 和 ”、“ δ1 、δ2 突发性 重要性 事件检测,采用一种动态阈值法,根据突发词的 性 频最大的第 的第 50 大的第 个词的 发词作为时间段 能够适用于不同时间段的 热点 中词 设置为增长率最大 权重最 个突 “ 个词的词频值, δ2 个词的增长率值, δ3 TF - PDF 。 中的突发词集 TF - PDF 即,最终抽取 设置为 值 ,分别将 设置为 100 “ ” 30 30 δ1 Si Si 。 当前实验时间段中各个突发词及其 TF - PDF 值 如表 1 所示 。 60 现代图书情报技术 表 1 各突发词及 TF - PDF 值 TF - PDF 值 突发词 TF - PDF 值 0. 0502 0. 0521 0. 0536 0. 0557 0. 0569 0. 0585 0. 0606 0. 0640 0. 0738 0. 0788 0. 0832 0. 0957 0. 1128 0. 1225 0. 1849 真相 法律 记得 山东 纪念 运动 规则 专家 文化 美女 发现 人生 朋友 世界 社会 0. 0509 0. 0530 0. 0545 0. 0560 0. 0582 0. 0586 0. 0616 0. 0689 0. 0750 0. 0817 0. 0951 0. 1043 0. 1158 0. 1578 0. 2161 突发词 天下 民族 感谢 关系 骆家辉 官方 意识 责任 权利 公务员 生命 女人 云南 汶川 地震 对微博进行突发词特征表示,并过滤突发词少于 三个的微博文本 5. 3 聚类结果评测与分析 。 对于每个突发词文本,聚类结果只有 种情况,分 4 ( CT Cluster Text ) : 突发词文本被正确地归为 别如下: ) 1 某个类 ( 。 ) ( 2 MT ( Miss Text ) : 突发词文本被错误地归为某 个类 。 ( 3 ) ( FT Fail Text ) : 突发词文本属于某个类,但是 没有归入那个类 。 ( ) 4 ( NC Not Cluster ) : 突发词文本不属于任何现有 的类 。 准确率和召回率分别定义为: CT CT + MT CT 准确率( Precision) = × 100% ( 8) 召回率( Recall) = × 100% ( 9) CT + MT + FT F 值( F - measure) = 2 × 准确率 × 召回率 准确率 + 召回率 ( 10) 本文 利 用 和 K - means LDA 评测结果分别如表 法中 值为 k 20、25、30、35、40、45 ACFD 算 法 和 对 比 实 验 的 方 法 ( 基 于 聚类的方法) 进行分析,聚类结果和 方 其中 和表 所示 K - means 5 3 。 , LDA 2 模型中隐主题数分别为 和 可以看出, 50。 3 由表 ACFD 算法能够比较准确地对突 发词文本进行聚类,对比实验方法在某个隐主题值的 设置下,如隐主题值为 值; 但 F 是在某些条件下,如隐主题值为 值不是 时,也能获取较高的 时, F 和 10 30 35 5、10、15、
5 ) ) ) ) ) ) ) ) ) ) 10 15 20 25 30 35 40 45 50 方 法 K - means + LDA K - means + LDA K - means + LDA K - means + LDA ( K - means + LDA ( ( ( ( ( ( ( ( ( K - means + LDA K - means + LDA K - means + LDA K - means + LDA K - means + LDA ACFD 方法 K - means + LDA K - means + LDA K - means + LDA K - means + LDA ( K - means + LDA ( ( ( ( ( ( ( ( ( K - means + LDA K - means + LDA K - means + LDA K - means + LDA K - means + LDA ACFD 5 ) ) ) ) ) ) ) ) ) ) 10 15 20 25 30 35 40 45 50 表 2 聚类实验结果 CT 723 744 577 680 691 538 533 579 717 700 726 MT 123 99 99 158 47 141 321 154 147 142 58 FT 102 105 272 110 210 269 94 215 84 106 65 NC 0 0 0 0 0 0 0 0 0 0 99 表 3 聚类结果评测 Precision Recall F - measure 85. 46% 88. 25% 85. 35% 81. 14% 93. 63% 79. 23% 62. 41% 78. 99% 82. 98% 83. 13% 92. 60% 76. 26% 78. 48% 60. 86% 71. 73% 72. 89% 56. 75% 56. 22% 61. 07% 75. 63% 73. 83% 85. 51% 0. 80 0. 83 0. 71 0. 76 0. 82 0. 66 0. 59 0. 68 0. 79 0. 78 0. 89 F F 。 由此表明, LDA 值的影响较大 值也有较大的变 模型中经验主义的隐主题数值对聚 相比而言, 算法在聚类前不 值,也不用根据经验主义设置隐主题 很理想,其他隐主题值下聚类结果的 化 类 用设置固定的 值,同时还能保证较高的 5. 4 突发事件检测结果与分析 值,优于对比实验的方法 ACFD 。 。 F k 5 从 ACFD 聚类结果中选择类簇最大的 当前的突发事件类,然后分别从这 热度最大的一条微博来代表当前的突发事件 式( 对突发事件的传播的作用,参数 个类代表 个事件类中抽取 使用公 ) 计算单条微博热度,考虑到微博中转发和回复 分别设置为 类突发事件中,表示每类事件的突发词如 和 。 λ1 λ2 5 7 0. 7、0. 3。5 表 所示: 4 总第 230 期 2013 年 第 2 期 。 ” “ 从表 ACFD 三要素 的假设 中的突发事件和事件的突发词描述可以看 4 算法能够比较准确地发现微博突发事件,事 出, 同时, 件的突发词描述也大致符合 微博中的突发事件也有其自身的特点: 突发事件往往 关注的人比较多( 热度比较大) ; 通常,社会名人( 如, ) 发布的微博,成为突发事件的可能性比一 突发事件 般用户的大,即使有时候发布的只是一般事件的微博 以下对各事件进行简要的分析: 描 述 的 是 云 南 巧 家 县 爆 炸 案 1 由于此案件涉及到社会安全,同时网民对云南官 件 方给出的关于该事件的调查报告提出了质疑,一时间 在微博上引起很大的关注 ) 突 发 事 件 ”。 “ 。 3 1 ( 。 ( 2 ) 突发事件 描述的是 2 相关事件 云南美女公务员要求 “ 事件中女公务员由于对 饭店女老板下跪 饭店女老板不满而要求其下跪道歉,并威胁恐吓,在微 博中一经发布,立刻遭到网民口诛笔伐,造成很大的社 会影响 ” 。 。 ) 突发事件 ( 3 3 。 该微博总结了国人在权利 描述的是任志强关于中国人精神 法律和 现状的总结 、 由于任志强是明星用户,微 规则之间的取舍和关系 博发布后得到广泛的评论和转发,因而被本文检测为 突发事件 意识 、 。 。 ( 4 4 。 ” “ 事件 ) 突发事件 描述的是 骆家辉跪幼 骆 家辉作为美籍华裔在华官员,在中国的一言一行都受 到广泛的关注,在和某专家的会面中,骆家辉半跪着跟 一个小女孩聊天,显示了官员亲切和善的一面 这和 的作风形成鲜明对比,获得网友 中国的 的一片赞扬; 另外也有人对当前我国官员的一些作风 提出了批评 跪官不跪幼 “ ” 。 。 ( 5 ) 突发事件 描述的是 的相关 5 日是汶川地震的纪念日,这是一个 纪念汶川地震 事件,由于 全国性的重大事件,所以必然引起网民的热切关注 月 “ ” 12 5 。 6 结 语 热度 表 4 微博突发事件检测结果 突发 事件 1 云南( Where) 、官方( Who) 、社会( What) 铁幕真相 事件突发词描述 作者 我是居民非公民 2 云南( Where) 、公务员( Who) 、 美女( Who) 、下跪( What) 权利( What) 、意识( What) 、规则( What) 、 法律( What) 、文化( What) 3 4 骆家辉( Who) 、发现( What) 、专家( Who) 半瓶酒 5 汶川( Where) 、地震( Who) 、纪念( What) 张蜀梅 任志强 0 ( 注: 其中突发词加黑, Where、Who 和 What 三要素为人工标注 001 131. 2 200. 0 975. 4 145. 6 166. 9 ) 。 本文通过分析微博自身内容的简短性和突发事件 在微博中的传播特性,使用突发词构建文本的特征向 量,提出了一种基于 的微博突发词文本聚 类算法( 实验证明, 算法能够比较准确 同时,如果需要检测更 地实现微博突发事件的检测 多的突发事件,可以通过设置突发词集中词的个数来 绝对聚类 ACFD ACFD “ ” 。 。 ) XIANDAI TUSHU QINGBAO JISHU 61
[ 8 ] Erdmann M , Nakayama K , Hara T , et al. Improving the Extraction of Bilingual Terminology from Wikipedia [ ] J Communications and Applications . ACM Transactions on , 5 2009 , , Multimedia Computing ( ) : 4 1 - 17. [ 9 ] Bollegala D , Matsuo Y , tween Implicit Semantic Relation Using Web Search Engines Ishizuka M. Measuring the Similarity Be- ] [ C . : In Proceedings of the 2nd ACM International Conference on Web : , , ( ) Search and Data Mining WSDM’09 . New York USA NY , 2009 : ACM 104 - 113. [ ] 李海芳,史俊冰,段利国,等 10 一种基于含糊同义词的查询扩展 . 计算机应用与软件, , 28 ( 12 ) : 439 - 443. ( Li ] 方法[ . J , Haifang Shi Junbing , et. al. A Query Expansion Method Based on Vague Synonyms . Computer Application and Software , 2011 , 28 ( 12 ) : 439 - 443. ) [ 11 ] 赵辉,刘怀亮,范云杰,等 情报理论与实践, 2012 , ] [ J . , . Huailiang Fan Yunjie 一种基于语义的中文文本分类算法 , 35 ( 3 ) : 115 - 118. ( Zhao Hui , Liu et. al. A Chinese Text Classfication Algo- [ ] J . Information Studies Theory & Appli- : 2011 , Duan Liguo [ ] J rithm Based on Semantics , cation , 35 ( 3 ) : 115 - 118. ) 2012 , , [ ] 12 [ ] 13 Blei D M Ng A Y Jordan M I. Latent Dirichlet Allocation [ ] . J : , 3 993 - 1022. , 2003 : The Journal of Machine Learning Research , Nallapati R Model for Topics and Influence in Blogs Cohen W. Link - PLSA - LDA [ ] C A New Unsupervised : Proceedings of the . In International Conference for Weblogs and Social Media. 2008 : 84 - 92. Zhang Yu [ ] J . Journal of [ ] 洪宇,张宇,刘挺,等 14 中文信息学报, 2007 ] 话题检测与跟踪的评测及研究综述[ J . . , , 21 Hong Yu 71 - 87. , ) : 6 Liu ( ( , Ting et al. Topic Detection and Tracking Review Chinese Information Processing , 2007 , 21 ( 6 ) : 71 - 87. ) Bun K K , Ishizuka M. Topic Extraction from News Archive Using [ ] 15 TF* PDF Algorithm [ ] C . In : Proceedings of the 3rd International Conference on Web Information Systems Engineering. 2002 ] 新闻五 要 素[ ] 百度百科 [ EB / OL 2013 - 01 - 03 . http ] . . [ 16 : / / : 73 - 82. baike. baidu. com / view /754050. htm. ( Baidu Baike. The Five El- ements of News EB / OL [ [ ] . baidu. com / view /754050. htm. 2013 - 01 - 03 ) ] . http : / / baike. ( 作者 : E - mail wy514674793@ 126. com ) 情报分析与研究 。 ( 实现 然而,本文还有一些可以改进的地方: ) 突发词集的抽取 可以采用多种权重算法相 结合,从而得到含信息量更多,更能准确地反应突发事 件特征的突发词集 。 1 。 ( ) 突发事件的描述 目前还没有很好的方法能 准确地对突发事件进行描述,这也是下一步将 、 。 2 够自动 要研究的工作 。 参考文献: [ 1 ] 中国互联网信息中心 第 . 30 次中国互联网络发展状况统计报 ] 告[ R . 北京: 中国互联网络信息中 心 , 2012. ( China Internet Network Information Center. The 30th Statistical Report of China [ 2 Internet Development [ ] R ] 原福永,冯静,符茜茜 ( 图书情报技术, . 2012 6 . Beijing : CNNIC , 2012. ) ] 微博用户的影响力指数模型[ J . ) : , ( 60 - 64. Yuan Fuyong 现代 , Fu Qianqian. Influence Index Model of Micro - blog User ( Technology of Library and Information Service 2012 , ) 64. [ 3 ] , Diao Q M [ ] C logs . In Jiang J : [ 4 ] Wang X H , , Zhu F D. Finding Bursty Topics from Microb- , : Proceedings of ACL , et al. Mining Correlated Bursty Top- 536 - 544. Zhai C X Hu X 2012 , ics Patterns from Coordinated Text Streams [ ] C . In : Proceedings of Feng Jing [ ] J ) : . New 6 60 - the 13th ACM SIGKDD International Conference on Knowledge Dis- , ) , , ( KDD’07 California USA. New York covery and Data Mining : , : NY ACM 784 - 793. USA , , 2007 , Du Y Y He Y X Tian Y Based on User Relationship , et al. Microblog Bursty Topic Detection [ ] C Proceedings of the 6th IEEE . In : Joint International Information Technology and Artificial Intelligence Conference , Du Y Y ( ITAIC , ) : . 2011 260 - 263. Wu W He Y X , et al. Microblog Bursty Feature Detec- tion Based on Dynamics Model [ ] C . In : Proceedings of the Interna- tional Conference on Systems and Informatics ( ) ICSAI . 2012 : 2304 [ 5 ] [ 6 ] - 2308. [ 7 ] Fung G P C , Yu J X , Detection in Text Streams Yu P S [ ] C , et al. Parameter Free Bursty Events : Proceedings of the 31st Interna- . In tional Conference on Very Large Data Bases. 2005 : 181 - 192. 62 现代图书情报技术
分享到:
收藏