中文微博突发事件检测研究.pdf

发布时间：2022-06-03 发布人：admin 分类：说明书资料大小：0.49M 资料格式：pdf 举报版权申诉

weixin_42800414-10590813-4744302543388011033.pdf-第1页.png

第1页 / 共6页

weixin_42800414-10590813-4744302543388011033.pdf-第2页.png

第2页 / 共6页

weixin_42800414-10590813-4744302543388011033.pdf-第3页.png

第3页 / 共6页

weixin_42800414-10590813-4744302543388011033.pdf-第4页.png

第4页 / 共6页

weixin_42800414-10590813-4744302543388011033.pdf-第5页.png

第5页 / 共6页

weixin_42800414-10590813-4744302543388011033.pdf-第6页.png

第6页 / 共6页

文本预览

总第 230 期 2013 年第 2 期中文微博突发事件检测研究 * 王勇1 肖诗斌1，2 郭跇秀1 吕学强1，2 1 ( 北京信息科技大学网络文化与数字传播北京市重点实验室北京 100101) 2 ( 北京拓尔思信息技术股份有限公司北京 100101) 从微博中准确而高效地挖掘出突发事件是近年来的研究热点【摘要】 TF － PDF 算法抽取突发词集，使用突发词表示文本并结合微博突发事件的描述特征进行文本过滤; 提出一种算法，对描述突发事件的文本进行聚类，并通过微博的回复数和转发数加权计算热度，检测各类事件中热度最大的实验结果表明，相比于传统的突发事件作为突发事件检测方法，该方法能够比较准确地检测到微博中的突发事件，有一定的应用价值【关键词】【分类号】TP311． 6 突发事件突发词文本过滤绝对聚类词增长率计算和、检测准确率为通过词频统计，召回率为绝对聚类 92． 60% 85． 51% 0． 89。值为， F 。。。 “ ” Research on Chinese Micro － blog Bursty Topics Detection Wang Yong1 Xiao Shibin1 ， 2 Guo Yixiu1 Lv Xueqiang1 ， 2 Beijing Key Laboratory of Internet Culture and Digital Dissemination Research Beijing Information Science and Technology University ，，， Beijing TRS Information Technology Co． Ltd． Beijing 100101 China ) 2 ( ， Beijing 100101 ， China ) 1 ( ，，，，，【Abstract】Much attention is paid to mining bursty topics accurately and efficiently from micro － blog nowadays． In this paper a set of burst terms are extracted by counting the term frequency calculating the growth rate of the terms and using Term Frequency － Proportional Document Frequency TF － PDF algorithm to measure the weight． And then micro － blog texts are described with the burst terms． Analyzing the characteristic that bursty topics propagate in the platform of micro ， ( ) － blog the authors filter the texts that do not contribute to detect bursty topics． The paper proposes a novel clustering strategy of “Absolute Clustering”to cluster the micro － blog texts． By figuring up the hot spot of the texts with weighted value of reply and retweet number the top 5 texts are extracted as the result of burst topics detection． The experiments show that the precision is 92． 60% the recall is 85． 51% and the F － measure is 0． 89． Contrast with the traditional meth- ， od the validity of the proposed method is proved．【Keywords】Bursty topics Burst terms Filter Absolute clustering 1 引言微博是近年来出现的新兴媒体，和传统的博客不同，它是一个可以方便快捷地发布传播以及获取信息、电子邮件以及各种客户端组件等发布和接收信息，、分享、的平台，用户可以通过网页、WAP 页面短信、实时消息软件、收稿日期: 收修改稿日期: 2013 － 01 － 18 2013 － 02 － 12 本文系国家自然科学基金项目 ( 项目编号: ) “ * ” 研究索方法研究 ” 研究成果之一 61171159 ( 项目编号: 北京市教委科技发展计划重点项目暨北京市自然科学基金、 B ) 和国家科技支撑计划课题增强型搜索引擎关键技术研究与示范 KZ201311232037 61271304 ) 类重点项目国家自然科学基金项目、网页内容真实性评价面向领域的互联网多模态信息精准搜 ) 的 ( 项目编号: “ “ 2011BAH11B03 ” 基于本体的专利自动标引研究 ( 项目编号: ” “ 。 XIANDAI TUSHU QINGBAO JISHU 57

情报分析与研究 2． 73 ［］ 1 关注的人和被关注的人进行交流、目前，国外著名的微博服务有腾讯微博、。可以随时和朋友论博服务主要有网易微博博等至一年底增长了 2012 。 6 据中国互联网信息中心( 年 CNNIC 月底，我国微博用户数达到讨、，国内中文微 Twitter 搜狐微博和新浪微、 ) 统计显示，截亿，较上，网民使用率为。 9． 5% 50． 9% 。背对脸和原创性等特性、微博具有便捷性尤其是便捷性，不再像传统博客每次都要思考很久并且长篇大论; 反之，用户可以随时随地发布自己的信息，这然而，微博中充斥给人们的信息交流带来质的飞跃着各种各样的短信息，也给用户获取自己感兴趣的突在数据爆炸的今天，用户不可发话题增加了难度［能通过阅读大量的微博信息来获取实时的突发事件。因此，从海量微博数据中挖掘出用户感兴趣的突发事件，是非常有意义的。。］ 2 。 2 相关工作目前，国内外针对文本流的突发事件研究已经有不少成果，但是针对微博的突发事件研究，还是比较新的领域。 3 ］ 5 － 7 按照突发特征识别的顺序，突发事件识别可以分］和以突发特征为中心的方为以文本为中心的方法［， 4 前者是先进行文本聚类，再在类中抽取出突法［发特征，进行突发事件的识别; 后者是先抽取出突发特征，再对突发特征进行分组，使用突发特征组进行突发事件的识别。。以文本为中心的方法针对传统的文本，效果较好，但是微博文本中含有很多垃圾信息，先进行聚类再进行突发特征识别会引入很多噪声信息，并且在文本聚类时还存在较多阈值的选取问题，阈值选取大多是根据经验值来设定，对聚类结果比较敏感以特征为中心的方法避免了阈值的问题，但是没有很好地解决垃圾信息的问题。。 140 在以文本为中心的事件识别中，由于微博受字数个字以内) 导致本身内容短小，数据针对数据稀疏性问题，目前常］和进行主题建模方限制( 一般在稀疏性问题比较严重用的方法有基于语义扩展的方法［的方法法以及主题建模方法中，最常用的是经典的方法的一些扩展［ LDA 。。， 12 ， 13 8 － 11 ］ 3 LDA 。与以上方法不同，本文先进行突发词集抽取，使用 58 现代图书情报技术突发词表示文本，然后分析微博描述突发事件的特性，对文本进行过滤，去除垃圾信息，最后提出一种基于的方法对文本进行聚类，返回各类簇中热绝对聚类 ” “ 度最大的微博作为突发事件的检测结果。本文研究的内容和话题检测与跟踪 ( ， TDT ， Topic Detection Task tion and Tracking ( 都是检测和组织系统预先未知的话题［有很大不同，相对于据中检测突发事件，并且还涉及到垃圾信息的处理 Topic Detec- ) 研究中的子任务话题检测 ) 有一些共同之处，主要任务不过两者也而言，本文更侧重于从大规模数 TD TD 。］ 14 。 3 微博文本特征表示由于微博内容简短，传统的基于词的特征向量方因法易导致向量的稀疏性问题和空间高维性问题此，本文使用突发词作为微博文本的特征，构建基于突发词的微博文本特征向量 3． 1 突发词集抽取 : 突发词。。定义对于在某个时间段 1 ( Si 且 i ＞ 0 ) 内出现的任意一个词，则称这个词为突 Fi k≥δ1 、Ri ， k ≥δ2 ， Wi k ≥δ3 ，，如果 k 发词。其中， Fi ， k Si － 1 Si 从时间段在时间段 k 的三个阈值述词 k ( 1 词的增长率于上一个时间段表示词 k 到时间段内的在时间段内词 Si TF － PDF 表述词内的词频，表示 Ri Si ， k 的增长率，表示词 Wi 表示待设定，表 Ri δ3 热点性和， k k 值， δ1 、δ2 的 ” k≥δ2 ，重要性 ”。的 “ k k “ 表述词。Fi k≥δ1 ，，的突发性 Wi k≥δ3 ， ) 词增长率计算 “ ” 表示当前时间段中的词的增长率，计算方法如下: Si 相对 k 的计算倾向于在别的文本中出现更少算法是信息索引领域常用的权重算法，区分而突发事件中，出现突发词的文本数比算法不利于突发词的权重计算。 “ TF － IDF 。 TF － IDF 较高的词 ” IDF 其中度较多，使用而 ( TF － PDF Term Frequency － Proportional Document Ri ， k Si － 1 { Ri，k = Fi，k Fi － 1，k NaN 当 Fi － 1 k = 0 ，，即当前时间段词频很大，但是上一时间段值为一个比较大的常数 Si － 1 NaN。 ( ) 2 TF － PDF 权重计算 Fi － 1，k ＞ 0 ( 1) Fi － 1，k = 0 内出现的某个词 Si 内没有出现时， Ri ， k k 的

) ［ Frequency 法考虑到词在不同渠道( ］算法能很好地解决这个问题，并且该算 ) 下的权重，本文使用 15 Channel 算法计算语料中词的权重，计算方法如下: TF － PDF ( 2) ( 3) D Wj = ∑ c = 1 | Fjc | exp( njc Nc ) | Fjc | = Fjc K ∑ k = 1 Fkc槡 2 为包含词为词的权重，在微博渠道( j Channel 的词频，的文档数， njc Nc 为某个微博渠道中所有词的词数， D j ) c 为所为微 Wj 其中，中，为词 j Fjc 有文档数， K 博渠道的数目根据定义总第 230 期 2013 年第 2 期法国( ) 危机( 、 ) 总统( 、 Who Where “ 法国新总统应对欧债危机考验的相关事件; ( ) 汶川地震周年展开纪念的相关事件地震( 、纪念( 、 Where What What Who ” ) ) ) ” 简约描述了汶川，简约描述了针对 “ 。基于这个原则，一个描述突发事件的微博文本应因此，本文过滤三要素该至少包含三个突发词( 。掉语料中含突发词少于三个的微博文本 4． 2 微博文本聚类 ) ” “ 。使用突发词匹配法来计算微博文本之间的相似度，在此基础上，传统的基于对象和聚类中心点的距离的聚类算法不能有效地判断一个新文本和一个已有类算法，实的相似性现基于突发词的微博文本聚类 ) 突发词文本相似条件和向量表示，则它们之间的距离 ( 1 对于突发词文本因此，本文提出一种，分别使用突发词， x 定义为: 绝对聚类 text i text i 。 “ 。 ” ， j tdj ， x tdj，x = min( | texti，j | ，| texti，x | ) － texti，j × texti，x ( 6) 为两个文本向量的数量积其中， text i j × text i ，， x 两。个微博文本的相似条件算法如下: 输入: 两个突发词文本 texti，j 和 texti，x ，| texti，j | 和 | texti，x | 分别表示两个突发词文本包含突发词的个数输出: 是否满足相似条件( true / false) ①如果 | texti，j | ＞ 3 且 | texti，x | ＞ 3，则执行步骤②; 否则执，抽取时间段 ( Si i ＞ 0 ) 中所有满足突发词条件的词，构成内的突发词集，记为 BurstSet i。。 1 Si BurstSeti = { Termi1 ，Termi2 ，…Termi，j ，…} 其中， Termi 表示时间段， j Si 中的第 j ( 4) 个突发词。 3． 2 文本的突发词向量 Si 对于某个时间段用突发词向量表示为: 中的任意微博文本，可以， j text i texti，j = { e1 ，e2 ，…eL } ( 5) 包含该时间段中的某个突发词， j ， k 内突发词集为{ 汶中包含突发词 { 汶川，纪例如，如果 Si 其中，如果，反之， text i ek = 1 则 ek = 0。川，地震，纪念} ，文本，念} ，则 } 1 ， 0 1 text i j = ， { text i ， j 。本文中，使用突发词表示的文本称为突发词文本。行步骤③。 4 微博突发事件检测 4． 1 微博文本过滤微博中具有各种各样的信息，包括很多关于日常感慨以及一些广告信息等，这些信息对突生活的描述、同时，使用传统的发事件的检测有很大的干扰作用基于突发词的文本和聚类的方法将导致严重的数据稀疏性问题。。 ) ) ) ) Why Who What When Where “5W1H” 何事( 、何人( 、何地( 、 ) ，后来增加了一个要素，即如何( ，被称为新闻六要素［在新闻领域，描述新闻的要素一般包括: 何时 ( 何、 ) ，用英故( 文字头简称微博内容由于受字数限制，往往不能完整地对突发事件进行描述。通过对新浪微博和网易微博中的突发事件进行分析，本文认为，如果一条微博描述了一个突发事件，那如么它至少包含三个要素，即何地 How ］何人何事。 16 ” 、、。 “ ②当 tdj，x ≤2 时，则 texti，j 和 texti，x 满足一定条件的相似，返回 true; 否则不相似，返回 false。 ③当 tdj，x ＜ 2 时，则 texti，j 和 texti，x 满足一定条件的相似，返回 true; 否则不相似，返回 false。 ( ) 基于 2 “ 绝对聚类绝对聚类的微博文本聚类算法 ” ” “ 的思想是: 如果某一个对象属于既有的一个类，那么它应该和这个类中的每一个对象都相似，即基于。算法) ” 的微博突发词文本聚类算法( 属于这个类，否则不属于这个类 ACFD “ 绝对绝对聚类 “ 流程如下: ” 输入: 突发词文本集 Corpus 输出: 突发词文本类簇集 Cluster ①任意选择 Corpus 中的两个突发词文本 texti，j 和 texti，k ，如果它们满足一定的相似条件( 即一定条件的相似) ，则把它们归为一类 Cluster1 ; 否则，将它们分别归类为 Cluster1 和 Cluster2 。将 texti，j 和 texti，k 从 Corpus 中移除。 ②对于 Corpus 中的任意突发词文本 texti，x ，如果存在某 XIANDAI TUSHU QINGBAO JISHU 59

情报分析与研究个类 Clusterk ，texti，x 和 Clusterk 中的所有文本都满足一定的相似条件，则执行步骤③; 否则执行步骤④。 ③将 texti，x 归入类 Clusterk 中，从 Corpus 中移除texti，x 。 ④新建一个类 Clusterk ，将 texti，x 归入其中，并从 Corpus 中移除 texti，x 。 ⑤循环执行步骤② －步骤④，直到 Corpus 为空，结束。 4． 3 突发事件检测 2 : 热度定义热度是对一个事件被关注程度的量化突发事件在传播过程中会产生很大的影响，在微博平台中则具体表现为描述突发事件的微博的转发数因此，使用微博的转发数和评论数衡量单和评论数条微博的热度，计算方法如下: 。。 Hot( tweet) = λ1 × N( replyCount) + λ2 × N( retweetCount) ( 7) ( 其中， N ( 单条微博的评论数和转发数， λ1 replyCount ) 和 N 和 λ2 retweetCount ) 分别表示为两个参数且 λ1 + λ2 = 1。 5 实验结果及分析 5． 1 实验设置虫跟踪下载工具获取本实验数据来源于网易微博和新浪微博，利用爬月日至以一天为一个时日这一天进行微博突发月 1 个用户的微博数据 303 581 2012 2012 年年年月。 5 5 2012 5 12 日共 30 间段，主要对事件的检测。当前使用最多的话题建模模型是模型，常用模型 K － means 聚类的方法作为本文方法的对比实验 LDA ］，使用基于聚类［ LDA 3 K － means 的聚类方法是和方法 5． 2 突发词集抽取结果和为了使阈值。 δ3 ” 和 ”、“ δ1 、δ2 突发性重要性事件检测，采用一种动态阈值法，根据突发词的性频最大的第的第 50 大的第个词的发词作为时间段能够适用于不同时间段的热点中词设置为增长率最大权重最个突 “ 个词的词频值， δ2 个词的增长率值， δ3 TF － PDF 。中的突发词集 TF － PDF 即，最终抽取设置为值，分别将设置为 100 “ ” 30 30 δ1 Si Si 。当前实验时间段中各个突发词及其 TF － PDF 值如表 1 所示。 60 现代图书情报技术表 1 各突发词及 TF － PDF 值 TF － PDF 值突发词 TF － PDF 值 0． 0502 0． 0521 0． 0536 0． 0557 0． 0569 0． 0585 0． 0606 0． 0640 0． 0738 0． 0788 0． 0832 0． 0957 0． 1128 0． 1225 0． 1849 真相法律记得山东纪念运动规则专家文化美女发现人生朋友世界社会 0． 0509 0． 0530 0． 0545 0． 0560 0． 0582 0． 0586 0． 0616 0． 0689 0． 0750 0． 0817 0． 0951 0． 1043 0． 1158 0． 1578 0． 2161 突发词天下民族感谢关系骆家辉官方意识责任权利公务员生命女人云南汶川地震对微博进行突发词特征表示，并过滤突发词少于三个的微博文本 5． 3 聚类结果评测与分析。对于每个突发词文本，聚类结果只有种情况，分 4 ( CT Cluster Text ) : 突发词文本被正确地归为别如下: ) 1 某个类 ( 。 ) ( 2 MT ( Miss Text ) : 突发词文本被错误地归为某个类。 ( 3 ) ( FT Fail Text ) : 突发词文本属于某个类，但是没有归入那个类。 ( ) 4 ( NC Not Cluster ) : 突发词文本不属于任何现有的类。准确率和召回率分别定义为: CT CT + MT CT 准确率( Precision) = × 100% ( 8) 召回率( Recall) = × 100% ( 9) CT + MT + FT F 值( F － measure) = 2 × 准确率 × 召回率准确率 + 召回率 ( 10) 本文利用和 K － means LDA 评测结果分别如表法中值为 k 20、25、30、35、40、45 ACFD 算法和对比实验的方法 ( 基于聚类的方法) 进行分析，聚类结果和方其中和表所示 K － means 5 3 。， LDA 2 模型中隐主题数分别为和可以看出， 50。 3 由表 ACFD 算法能够比较准确地对突发词文本进行聚类，对比实验方法在某个隐主题值的设置下，如隐主题值为值; 但 F 是在某些条件下，如隐主题值为值不是时，也能获取较高的时， F 和 10 30 35 5、10、15、

5 ) ) ) ) ) ) ) ) ) ) 10 15 20 25 30 35 40 45 50 方法 K － means + LDA K － means + LDA K － means + LDA K － means + LDA ( K － means + LDA ( ( ( ( ( ( ( ( ( K － means + LDA K － means + LDA K － means + LDA K － means + LDA K － means + LDA ACFD 方法 K － means + LDA K － means + LDA K － means + LDA K － means + LDA ( K － means + LDA ( ( ( ( ( ( ( ( ( K － means + LDA K － means + LDA K － means + LDA K － means + LDA K － means + LDA ACFD 5 ) ) ) ) ) ) ) ) ) ) 10 15 20 25 30 35 40 45 50 表 2 聚类实验结果 CT 723 744 577 680 691 538 533 579 717 700 726 MT 123 99 99 158 47 141 321 154 147 142 58 FT 102 105 272 110 210 269 94 215 84 106 65 NC 0 0 0 0 0 0 0 0 0 0 99 表 3 聚类结果评测 Precision Recall F － measure 85． 46% 88． 25% 85． 35% 81． 14% 93． 63% 79． 23% 62． 41% 78． 99% 82． 98% 83． 13% 92． 60% 76． 26% 78． 48% 60． 86% 71． 73% 72． 89% 56． 75% 56． 22% 61． 07% 75． 63% 73． 83% 85． 51% 0． 80 0． 83 0． 71 0． 76 0． 82 0． 66 0． 59 0． 68 0． 79 0． 78 0． 89 F F 。由此表明， LDA 值的影响较大值也有较大的变模型中经验主义的隐主题数值对聚相比而言，算法在聚类前不值，也不用根据经验主义设置隐主题很理想，其他隐主题值下聚类结果的化类用设置固定的值，同时还能保证较高的 5． 4 突发事件检测结果与分析值，优于对比实验的方法 ACFD 。。 F k 5 从 ACFD 聚类结果中选择类簇最大的当前的突发事件类，然后分别从这热度最大的一条微博来代表当前的突发事件式( 对突发事件的传播的作用，参数个类代表个事件类中抽取使用公 ) 计算单条微博热度，考虑到微博中转发和回复分别设置为类突发事件中，表示每类事件的突发词如和。 λ1 λ2 5 7 0． 7、0． 3。5 表所示: 4 总第 230 期 2013 年第 2 期。 ” “ 从表 ACFD 三要素的假设中的突发事件和事件的突发词描述可以看 4 算法能够比较准确地发现微博突发事件，事出，同时，件的突发词描述也大致符合微博中的突发事件也有其自身的特点: 突发事件往往关注的人比较多( 热度比较大) ; 通常，社会名人( 如， ) 发布的微博，成为突发事件的可能性比一突发事件般用户的大，即使有时候发布的只是一般事件的微博以下对各事件进行简要的分析: 描述的是云南巧家县爆炸案 1 由于此案件涉及到社会安全，同时网民对云南官件方给出的关于该事件的调查报告提出了质疑，一时间在微博上引起很大的关注 ) 突发事件 ”。 “ 。 3 1 ( 。 ( 2 ) 突发事件描述的是 2 相关事件云南美女公务员要求 “ 事件中女公务员由于对饭店女老板下跪饭店女老板不满而要求其下跪道歉，并威胁恐吓，在微博中一经发布，立刻遭到网民口诛笔伐，造成很大的社会影响 ” 。。 ) 突发事件 ( 3 3 。该微博总结了国人在权利描述的是任志强关于中国人精神法律和现状的总结、由于任志强是明星用户，微规则之间的取舍和关系博发布后得到广泛的评论和转发，因而被本文检测为突发事件意识、。。 ( 4 4 。 ” “ 事件 ) 突发事件描述的是骆家辉跪幼骆家辉作为美籍华裔在华官员，在中国的一言一行都受到广泛的关注，在和某专家的会面中，骆家辉半跪着跟一个小女孩聊天，显示了官员亲切和善的一面这和的作风形成鲜明对比，获得网友中国的的一片赞扬; 另外也有人对当前我国官员的一些作风提出了批评跪官不跪幼 “ ” 。。 ( 5 ) 突发事件描述的是的相关 5 日是汶川地震的纪念日，这是一个纪念汶川地震事件，由于全国性的重大事件，所以必然引起网民的热切关注月 “ ” 12 5 。 6 结语热度表 4 微博突发事件检测结果突发事件 1 云南( Where) 、官方( Who) 、社会( What) 铁幕真相事件突发词描述作者我是居民非公民 2 云南( Where) 、公务员( Who) 、美女( Who) 、下跪( What) 权利( What) 、意识( What) 、规则( What) 、法律( What) 、文化( What) 3 4 骆家辉( Who) 、发现( What) 、专家( Who) 半瓶酒 5 汶川( Where) 、地震( Who) 、纪念( What) 张蜀梅任志强 0 ( 注: 其中突发词加黑， Where、Who 和 What 三要素为人工标注 001 131． 2 200． 0 975． 4 145． 6 166． 9 ) 。本文通过分析微博自身内容的简短性和突发事件在微博中的传播特性，使用突发词构建文本的特征向量，提出了一种基于的微博突发词文本聚类算法( 实验证明，算法能够比较准确同时，如果需要检测更地实现微博突发事件的检测多的突发事件，可以通过设置突发词集中词的个数来绝对聚类 ACFD ACFD “ ” 。。 ) XIANDAI TUSHU QINGBAO JISHU 61

［ 8 ］ Erdmann M ， Nakayama K ， Hara T ， et al． Improving the Extraction of Bilingual Terminology from Wikipedia ［］ J Communications and Applications ． ACM Transactions on ， 5 2009 ，， Multimedia Computing ( ) : 4 1 － 17．［ 9 ］ Bollegala D ， Matsuo Y ， tween Implicit Semantic Relation Using Web Search Engines Ishizuka M． Measuring the Similarity Be- ］［ C ． : In Proceedings of the 2nd ACM International Conference on Web : ，， ( ) Search and Data Mining WSDM’09 ． New York USA NY ， 2009 : ACM 104 － 113．［］李海芳，史俊冰，段利国，等 10 一种基于含糊同义词的查询扩展．计算机应用与软件，， 28 ( 12 ) : 439 － 443． ( Li ］方法［． J ， Haifang Shi Junbing ， et． al． A Query Expansion Method Based on Vague Synonyms ． Computer Application and Software ， 2011 ， 28 ( 12 ) : 439 － 443． ) ［ 11 ］赵辉，刘怀亮，范云杰，等情报理论与实践， 2012 ，］［ J ．，． Huailiang Fan Yunjie 一种基于语义的中文文本分类算法， 35 ( 3 ) : 115 － 118． ( Zhao Hui ， Liu et． al． A Chinese Text Classfication Algo- ［］ J ． Information Studies Theory ＆ Appli- : 2011 ， Duan Liguo ［］ J rithm Based on Semantics ， cation ， 35 ( 3 ) : 115 － 118． ) 2012 ，，［］ 12 ［］ 13 Blei D M Ng A Y Jordan M I． Latent Dirichlet Allocation ［］． J : ， 3 993 － 1022．， 2003 : The Journal of Machine Learning Research ， Nallapati R Model for Topics and Influence in Blogs Cohen W． Link － PLSA － LDA ［］ C A New Unsupervised : Proceedings of the ． In International Conference for Weblogs and Social Media． 2008 : 84 － 92． Zhang Yu ［］ J ． Journal of ［］洪宇，张宇，刘挺，等 14 中文信息学报， 2007 ］话题检测与跟踪的评测及研究综述［ J ．．，， 21 Hong Yu 71 － 87．， ) : 6 Liu ( ( ， Ting et al． Topic Detection and Tracking Review Chinese Information Processing ， 2007 ， 21 ( 6 ) : 71 － 87． ) Bun K K ， Ishizuka M． Topic Extraction from News Archive Using ［］ 15 TF* PDF Algorithm ［］ C ． In : Proceedings of the 3rd International Conference on Web Information Systems Engineering． 2002 ］新闻五要素［］百度百科［ EB / OL 2013 － 01 － 03 ． http ］．．［ 16 : / / : 73 － 82． baike． baidu． com / view /754050． htm． ( Baidu Baike． The Five El- ements of News EB / OL ［［］． baidu． com / view /754050． htm． 2013 － 01 － 03 ) ］． http : / / baike． ( 作者 : E － mail wy514674793@ 126． com ) 情报分析与研究。 ( 实现然而，本文还有一些可以改进的地方: ) 突发词集的抽取可以采用多种权重算法相结合，从而得到含信息量更多，更能准确地反应突发事件特征的突发词集。 1 。 ( ) 突发事件的描述目前还没有很好的方法能准确地对突发事件进行描述，这也是下一步将、。 2 够自动要研究的工作。参考文献: ［ 1 ］中国互联网信息中心第． 30 次中国互联网络发展状况统计报］告［ R ．北京: 中国互联网络信息中心， 2012． ( China Internet Network Information Center． The 30th Statistical Report of China ［ 2 Internet Development ［］ R ］原福永，冯静，符茜茜 ( 图书情报技术，． 2012 6 ． Beijing : CNNIC ， 2012． ) ］微博用户的影响力指数模型［ J ． ) : ， ( 60 － 64． Yuan Fuyong 现代， Fu Qianqian． Influence Index Model of Micro － blog User ( Technology of Library and Information Service 2012 ， ) 64．［ 3 ］， Diao Q M ［］ C logs ． In Jiang J : ［ 4 ］ Wang X H ，， Zhu F D． Finding Bursty Topics from Microb- ， : Proceedings of ACL ， et al． Mining Correlated Bursty Top- 536 － 544． Zhai C X Hu X 2012 ， ics Patterns from Coordinated Text Streams ［］ C ． In : Proceedings of Feng Jing ［］ J ) : ． New 6 60 － the 13th ACM SIGKDD International Conference on Knowledge Dis- ， ) ，， ( KDD’07 California USA． New York covery and Data Mining : ， : NY ACM 784 － 793． USA ，， 2007 ， Du Y Y He Y X Tian Y Based on User Relationship ， et al． Microblog Bursty Topic Detection ［］ C Proceedings of the 6th IEEE ． In : Joint International Information Technology and Artificial Intelligence Conference ， Du Y Y ( ITAIC ， ) : ． 2011 260 － 263． Wu W He Y X ， et al． Microblog Bursty Feature Detec- tion Based on Dynamics Model ［］ C ． In : Proceedings of the Interna- tional Conference on Systems and Informatics ( ) ICSAI ． 2012 : 2304 ［ 5 ］［ 6 ］－ 2308．［ 7 ］ Fung G P C ， Yu J X ， Detection in Text Streams Yu P S ［］ C ， et al． Parameter Free Bursty Events : Proceedings of the 31st Interna- ． In tional Conference on Very Large Data Bases． 2005 : 181 － 192． 62 现代图书情报技术

分享到：

赞收藏

资料库

中文微博突发事件检测研究.pdf

相关推荐

大数据

热门标签

最新资料