logo资料库

基于特定领域的中文微博热点话题挖掘系统.pdf

第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
资料共4页,全文预览结束
Journal of Computer Applications 计 算 机 应 用 ,2012,32(8):2346—2349 ISSN 1001—908l CODEN JYIIDU 2012—08—01 http://www.joca.cn 文 章 编 号 :1001—9081(2012)08—2346—04 doi:10.3724/SP.J.1087.2012.02346 基 于特 定 领 域 的 中文 微 博 热 点 话题 挖 掘 系统 BTopicMiner 李 劲 ,张 华 ,吴 浩雄 ,向 军 (1.湖北 民族学院 信 息工程学 院,湖北 恩施 445000; 2.华 中师范大学 信息管理系,武汉 430079) ( 通 信 作 者 电子 邮箱 ~05921@ tom.com) 摘 要 :随着微博应 用的迅猛发展 ,自动地从 海量微博信 息 中提取 出用户感兴趣 的热点话题 成 为一个具有挑 战 性的研 究课题 。为此研究并提 出了基于扩展 的话题模 型的 中文微 博热 点话题抽取 算法 。为 了解 决微 博信 息 固有 的 数据稀疏性 问题 ,算法首先利用文本聚类方法将 内容相 关的微 博 消息合 成 为微 博文档 ;基 于微博之 间的跟 帖关 系蕴 含 着话题 的关联性 的假设 ,算法对传统潜在狄 利克 雷分配 (LDA)话题模 型进 行扩展 以建模微博 之 间的跟帖 关 系;最 后 利用互信 息(MI)计算被抽取 出的话题的话题词汇用于热点话题推荐。为 了验 证扩展 的话题抽 取模型 的有 效性 ,实 现 了一个基 于特定领 域的中文微博 热点话题挖掘 的原型 系统——BTopicMiner。实验 结果表 明 :基 于微博 跟 帖关 系的 扩展 话题模 型可以更准确地 自动提 取微 博 中的热点话题 ,同时利 用 MI度量 自动计算得 到的话题 词汇和 人工挑 选的 热 点 词 汇 之 间的 语 义 相 似 度 达 到 75% 以上 。 关键词 :数据挖掘 ;信息检索 ;微博 ;话题模型 ;文本聚类 ;互信 息 中图 分 类 号 :TP3l1.52 文 献标 志码 :A BTopicM iner:dom ain-specific topic m ining system for Chinese m icroblog U Jin , ,ZHANG Hua ,W U Hao.xiong ,XIANG Jun (1.School ofInformation Engineering,Hubei Universityfor Nationalities,Enshi Hubei 445000,China; 2.Department of Information and Manageme nt,Central China Normal University, Wuhan Hubei 430079,China ) Abstract:As microblog application grows rapidly,how to extract users’interested popular topic from massive microblog information automatically becomes a challenging research area.This paper studied and proposed a topic extraction algorithm of Chinese microblog based on extended topic mode1.In order to deal with data sparse problem of microblog,the content related microblog text would be firstly clustered to generate synthetic document. Based on the assumption that posting relationship among microblogs implied topical correlation,the traditional LDA (Latent Dirichlet Allocation)topic model was extended to model the posting relationship among microblogs.At last,Mutual Inform ation (MI)measurement was utilized to calculate topic vocabulary after extracting topics by proposing extended LDA topic model for topic recommendation. Furtherm ore, a prototype system for domain·specific topical mining system, named BTopicMiner, was implemented SO as to verify the effectiveness of the proposed algorithm. The experimental result shows that the proposed al gorithm can extract topics from microblogs more accurately. Meanwhile, the semantic similarity between automatically calculated topic vocabulary and manually selected topic vocabulary exceeds 75% while automatically calculating topic vocabulary based on M I. Key words: data mining;information retrieval;microblog;topic model;text clustering;Mutual Inform ation (MI) 0 引言 通过传播的新 闻可 以分析消费者对某种产 品的评价。在 2011 年 7月 23日的温州动车事件 中,上百万人 由传 统信息渠 道转 如今 ,在互联 网上的很多 内容都是用户生成的。尤其是近 向通过像微博这样 的微博服务来 收集 时事新 闻或 自己感 兴趣 几年 ,微博产生 了很强 的影响力 。微博是 一种迷你博 客,它让 的事件 。可是 ,微博 中有海量 的短信 息 ,而且 这些信息 每天都 用户在任何时间和地点都 可以用手机和 电子 邮件通 过网站发 在增加 。在中国随着微博 服务大量和快速地增长 ,微博用户也 表限定字数 的信息。信 息的产生者可 以记 录任何 发生在 自己 日常 生 活 中 的 事 ,分 享 对 各 种 话 题 的 看 法 。 由 于 方 便 的 发 表 大 幅 度 的增 加 。中 国互 联 网公 司新 浪 的微 博 平 台 已经 宣 布 ,它 现在 已超 过 50万用户 ,每天约有 25万条微 博更 新发布。因此 性 ,自由的文本格式和易 于访 问的微博服务 ,很 多互联 网用 户 对用户来说从数量巨大的短信息 中找 到合适 的话题新 闻并把 都从 传统的联 系工具如博客 、BBS转移到 了微博。随着越来越 多的用户更愿意发表 自己使用产品的意见 ,描述 自己经历过的 听众感兴趣 的推荐给他们是一件非 常困难的事情 。 本文对如何从 海 量微博 信 息 中挖 掘热 点话 题进 行 了研 故事 ,表达 自己的政治 观点 ,微博 已经成为 了一 个关 于公 共事 究 ,提出了基于话题空间模型的热点话 题挖掘算 法 ,同时实现 件 、新 闻故事 、甚至个人情绪观点 的有 价值 的数据 源。这 些数 了系统原 型。首先通过 话题模 型对微博 信息进行 话题抽 取 , 据不仅可以被用来作科学研究而且也可以用作商业用 途 ,例如 在此基础 上将 微博 向量从基 于单 词的向量 空间向基 于话 题的 收 稿 日期 :2012—02-15;修 回 日期 :2012—03—30。 基 金项 目:国家 自然科学基金资助项 目(61040006);湖北省 自然科 学基金 资助项 目(2010CDZ027);湖北省教育厅科 技项 目(B20101909)。 作者简 介:李劲(1973一),男 ,湖北恩施人 ,副教授,硕士 ,CCF会员,博士研究生 ,主要研究方向 :基于互联 网的数据挖掘和数据管理、面向云计 算的 Web服务及 Web服务组合 ; 张华(1978一),男 ,湖北恩施人 ,讲师,硕士 ,主要研 究方 向:信息检索 、分布式系统及集成 ; 吴浩雄 (1979一), 男 ,湖北建始人 ,工程师 ,主要研究方 向:Web数据挖掘 、信 息安全 ; 向军 (1978一),男 ,湖北来风人 ,讲 师 ,博士 ,主要研 究方 向:移动计算 、实 时 数 据 库 系统 、软 件 测 试
第 8期 李劲等 :基 于特 定领 域的 中文微博热点话题挖掘 系统 BTopicMiner 空 间进行 映射 ,从 而将微博 表示 为话 题 向量 ;进 一步 地 ,基 于 2)索 引器 词 条 化 微博 内容 并 在 离 线 库 中对 已经 词 条 化 的 话题 向量对微博进 行聚类 分析 ,从聚类 得 到的每一 个簇 中找 出热点话题词 汇作 为热点话 题的表示 ;最后 ,挖掘 出的热点话 词项建立索引。系统使用 Lucene API来 执行 微博 内容 的分词 和索引构建 。此外 ,Lucene的 API提供 了接 口来统计分词后 的 题以 RSS的方式 反馈 给感 兴趣 的用户 。 词频信息 ,例如 TF—IDF得分 ,这将有助于热点话题的挖掘 。 1 相 关研 究 3)基 于 Web的用户配置界面 ,允 许用 户订阅他们感兴 趣 的 热 点 话题 。用 户 界 面 管 理 用 户 注 册 过 程 ,并 允 许 用 户 提 供 最近两年 国内外开始 了针对海 量微博信息 的数 据挖掘研 究工作 ,并取得 了一定 的进展 。其 中热点话题和新 闻的挖掘算 自己喜 爱 的 RSS订 阅 。 4)热点话题挖掘 引擎负 责从微博 中挖掘话 题新 闻 ,挖 掘 法大致可 以分为以下几类 :第一类方法是利用分类聚类方法挖 掘出当前热点事件 。如 Allan等…利用单 路径聚类算 法 ,结合 出来 的热点话题基 于用户兴趣进行排序 。热点话题算法在下 一 章 介 绍 。 一 个新阈值模 型实现 了一个在线新 闻监测系统 ;路荣等 利用 5)用 户推荐 是负责将 挖掘 出来的热点 话题转 换成 XML 一 个两层 的 均值 和层次聚类的混合 聚类方法 ,结合隐主题模 型找出微博 中的热点新 闻话 题。第二类方法是 在传统 的话题 模 型— — 潜 在狄 利 克 雷 分 配 (Latent Dinchlet Allocation,LDA) 模型 的基础上针对微 博消息直接建立话题模型 ,利用建立好 的 模 型 直 接 抽 取 话 题 。如 Ramage等 构 造 了 一 个 半 监 督 学 习 模型L—LDA将用户 和 Twitter特性 化来个 性化 用户 信息需 求 ; Asuncion等 提 出了基于分布式算法 的改进 的 LDA和分层 的 狄 利 克 雷 过 程 (Hierarchical Dirichlet Process,HDP)话 题 模 型 ; Blei等 建 立 了 一 个 新 的 话 题 模 型——相 关 主 题 模 型 (Correlated Topic Model,CTM),该模 型通过正态分布建模话题 之 问 的 相 关 性 ;Sankaranarayanan等 实 现 了一 个 新 闻处 理 系 统 TwitterStand用 于捕 捉 时 下 热 门 Twitter话 题 新 闻 。另 外 一 类 基 于微 博 话 题 挖 掘 的 研 究 方 法 是 通 过 分 析 微 博 内容 自动 产 生 关 于微博 的总结 (Summarization)。如 Sharifi等 实 现 了用 一 个 句子 总结微博话题的方法 ,使用户可 以快速并 准确地理解 一 个 热 门话题 ;在他 们的研究基 础上 ,Inouye 提 出一 种用多个 句子总结微博上热门话题 的方法 ,克服了单个句子对话题信息 量承载不足的缺陷。 为 了提高从 海量微博 中挖掘 热点话题 的速 度和精 度 ,有 学者从微博 用户传播影 响力 的角 度进行 研究 ,首 先找 出有 影 响力 的用户 ,在此基础上挖掘这些用 户的微博消息 ,可以大大 提高挖掘 的速度 和精度 。关 于这方 面的研 究 有 :Yeung等 提 出一种用户采 纳行 为 的概 率模 型 ,推 断 出在微博 传播过 程 中 一 个 用 户 对 另 一 用 户 的影 响 力 ;Anagnostopoulos等 在 对 大量数据进行统计分 析的基础上确定 了社会影 响是个人行 为 与社会关系相关性 的一 个重 要来 源 ;Crandall等 确 定并模 型化了社会影响 和个人 选择 之 间的相 互作 用 ;Goyal等 构 造 了一个根据传播 日志静 态和动态计算个人影响力 的模 型。 另外对微博 内容进行 情感分 析和 挖掘 ,可 以发 现微 博用 户对热点新 闻话题的态度或情感倾 向。关 于这方面也有一些 相 关 的研 究 成 果 ,研 究 方 法 主 要 是 基 于 图模 型 和 文 本 分 类 技 术 ,例如 Guerra等 利用 随机游走模 型和图模型提 出一种转 换学 习方法 来进行实时 腈感 的分析 ;Silva等 利用基于情绪 规则 的分类 方法 对情 感进 行 预测 ;Wang等 基 于 图 的分 类 方 法 ,将 粒 度 细 化 到 Hashtag对 话 题 的情 感 色 彩 进 行 了分 类 。 2 系 统 架 构 BTopicMiner包括五个基本组 成部分 :微博爬 虫 、索 引器 、 基于 Web的用 户配置 界面 、热点话 题挖 掘引擎 和用户 推荐 。 BTopicMiner基本系统架构如 图 1所示 。 图 中五个基本组成 部分的功能如下 : 1)微博爬虫负 责 自动从 互联 网爬 取微 博 并进行 语 义分 析及话题新 闻的挖掘 。微博爬虫 的实现是基于 国内最大 的微 格式 的 RSS提要 发送 给感兴 趣 的用户 。被挖 掘 出来 的热点 话 题 通 过 XLST样 式 转 换 成 满 足 RSS要 求 的 XML格 式 发 送 给 用 户 。 冬 推 至 用 户 微 博 用户接口 l —]— — — 、 (互联网 ) I RSS索引 I微博索g 8 莓 索引器 吕 l 计算排名评分 ‘新 闻挖掘 话 题 挖掘 引擎 排 名新 闻 列 表 话题 推 荐 图 1 BTopicMiner系 统 架 构 3 话题挖掘算法 3.1 基 于微 博 的 话题 模 型 热点话题挖掘算法是系统实现 的关键 。传统 的话题挖掘 算法多采用文本聚类方法 ,其中隐含的假设是 :关于 同一个热 点话题 的文档所用 的词 汇是相似 的 ,因此如果 将文档表 示成 单 词 向量 ,那 么关 于 同 一 热 点 话 题 的 文 档 向 量 在 向量 空 间 中 的距离应该是很接 近的。基于这 样的假设 ,被 聚集在一 起 的 文档应该蕴含着相 同的话题 。但是基于单词的文档 向量表示 无法准确地描述出文档 的语义 ,更重要 的是 :关于同一话题的 文档使用的词汇不一定是相似的 。更常见的情况是微博 消息 所用的词汇完全不 同,但却蕴 涵着 同一话题 。为 了解决这 个 问题 ,在传统 的话 题模 型 LDA 的基 础上 对微 博进 行 话题 建 模 ,从微博 中挖掘 出有价值 的话题 。LDA模 型是一 种产生式 模型 ,但是和传统 的产 生式模 型有 重要 的区别 。传统 的产生 式 模 型认 为一 个 文 档 只有 一 个 主 题 (即 文 档 的类 别 ),在 这 个 假 设 的基 础 上 文 档 的产 生 过 程 被 描 述 为 p( )=∑p(z)兀p(w I z) (1) 即文 档 的单 词 产 生 过 程 为 :首先 假设 文 档 以 概 率 p(z)属 于 某 个主题 ,以此为条件再 以概率 P(W l z)产生单 词 W 。但这个 模 型 假 设 一 篇 文 档 只 有 一 个 主 题 是 很 难 成 立 的 。例 如 一 篇 关 于数据挖 掘的论 文其 中可 以有 多个 主题 :数据挖 掘 、文本 分 类 、文本 聚类 等。为 了解决这个 问题 ,LDA模 型在 文档类别 和 文档单词之间增加 了一个 主题层 ,并将 文档单词 的产生过 程 建 模为 . N p( )=f (兀 ∑p( l Zn;卢)p( l ))p(O;a)dO(2) 口 … 1 n 1 博服务商新 浪提供 的 API实现 ,通 过新浪 微博 API可 以下 载 即文档的单 词产生过程为 :首先 以概率分布P(0)选择参数 0, 微 博用户信息 和微博 内容 信息。 再 以条件概率 p(z 1 0)选择 主题 z ;在选定 主题 z 的假设前
2348 计 算机 应 用 第 32卷 提 下以条件概率P(W I )选择单词 W 。式 (2)中出现的 和 中概率 P ,p ,… ,P 以降序进 行排 序 ,同时 生成 的单词 和文 B为模 型 参 数 。 然而 LDA模型只是对 单篇 文档建 立文档 单词产 生过程 的概率模 型 ,没有 考虑文 档之 间 的关 系。而对 于不 同的微博 消息 ,存在 着非常重要 的关联关系 :跟 帖关 系 。即用户可 以对 某条 自己感兴趣 的微 博消 息 进 行评 论 (即增 加 自己 的 内 容 )并 发 表 新 的 微 博 消 息 M ,消 息 M 即 为 消 息 M 的 跟 帖 ,为 了方便描述 ,将 消息 M 称 为被 引用消 息 (Cited Message),而 消息 称为引用消息 (Citing Message)。经过分析 ,可 以发现 引用 消 息 和被 引用 消 息 有 如 下重 要 的性 质 :1)如 果 消 息 没 有 被 引 用 消 息 ,则 消 息 为 原 创 消 息 ;2)如 果 消 息 有 被 引 用 消 息 ,则 M 只 会 有 一 条 被 引 用 消 息 。进 一 步 地 ,引 用 消 息 有 很 大可 能在 话 题 上 和被 引 用 消 息 的话 题 相 似 或 者 在 被 引 用 消 息 的 原 有 话题 基 础 上 增 加 了 新 的 话题 。基 于 以上 分 析 ,将 传 统 的 LDA模 型进 行 扩 展 ,以 对 微 博 消 息 的这 种 跟 帖关 系建 模 。扩 展 的 LDA模 型 如 图 2所 示 。 图 2 用 于 微博 话 题 发 现 的扩 展 LDA模 型 图 2所示 的话题模 型描述并建模 了微博 消息 之间的跟 帖 关 系 。 图 中 右 边 为 引 用 消 息 ,引 用 消 息 的 话 题 z取 决 于 随 机 变量 s:如果 s= 1,表示 引用消息 为原创消 息 ,该 消息 的话 题 由消息本身 的话题分布先验概 率 Ot 和文献本 身的话题分 布 决定 ;如果 s=0,则引用消息是对被引用消息 的完全转 发 , 没有增加新 的主题 ,因此其 主题完全 由被 引用 消息 的分布先 验概率 和被引用消息本身的话题分布 决定 ;如果 s取值 为 0—1,则引用消息的话题 z由被 引用 消息 和引用消息 自身 共 同决定 。参数 A决定话 题来 自被 引用消 息还是引 用消息 自 身的 比例 ,A 的分 布取 决 于先 验 概率 d 。因此本 文 提 出 的 LDA扩 展模 型 ,充分考虑 了微 博消息 之间 的跟 帖关 系。模 型 中 参 数 的估 计 采 用 的 是 Gibbs采 样 方 法 ,由 于 篇 幅所 限 这 里 不 再详述。 3.2 话 题 抽 取 的预 处 理 由于微博消息 的文本 内容不 能超 过 140个 字符 ,因此这 种 数 据 的稀 疏 性 会 影 响 话 题 抽 取 的 效 果 。 在 利 用 扩 展 LDA 模型进行话题抽取前 ,需要 对微博进行 预处理 ,所采用 的预处 理方法为基于单词 向量 的聚类处理 。即首先将微博分词后表 示 为单词 向量 ,基于单词 向量对微博 用 K均 值算法进 行聚类 处理 。假设 聚类结果为 K类 ,将每 一类里 的微博 消息 合并成 单个文档 ,则得到 了K个合成 的微博文档 ,然后再利用 3.1节 提 出的扩展 LDA模 型对 K个合 成的微博 文档进行话 题抽取 。 这样可 以有效地 解决 微博数据稀疏性问题。 3.3 热 点 话 题 词 汇 的 抽 取 当利用扩展 LDA模型对微博进行话题抽取 后 ,可 以得到 每一个抽取 出的话题相 关联 的词汇 和相关 联的文档 。对于抽 取出的话题 ,将该话题 生成 的单词 和文档 以产生 概率进 行 排序 。对 于抽 取出的话 题 ,该话题生成 的单词和相应 的生成 概率记为 ( :p。, 2:p:,… ,W :p );类似地 ,该话题生成 的 文档和相应的生成 概率 记为 T(d。:p ,d::p ,… ,d :P )。其 档按概率取 TOP N个。 热点话题词 汇抽 取基 于抽 取 出的话 题所产 生 的文 档进 行。假设抽取 出的话题集合 ST={T1, ,… ,TK}(K为话 题个 数),集合 中话题 (,=1,2,… , )产生的 TOP N(按 产生 概率排序 )个文档 为 Ti(d :p ,d :p2,… ,d :pⅣ)。对于 每个 话题 产生 的 TOP N文档 集合 ,可以将集合中的每个文档的 类别看成 ,在此基础上从这 些文档 中找 出最 有代表性 的单 词 。采用的算法为计 算 文 档 中单 词 相对 于类 别 的互 信息 (Mutual Information,MI)。对 于话题 ,单词 相对 的互 信息记 为 MI(W,Ti),其值定 义如下 : MI( ) = lb + lb + N、o L m N NIn N∞ NN∞ I1 m r 1、 其 中 :Ⅳ 。为包含单词 但不属于话题 的文档 总数 ,Ⅳl,为包 含 单词 W且属于话题 的文档 总数 ;Ⅳ0 为不包含单词 但属 于话 题 的文档 总数 ,.7\,。。为不包含单 词 W且不属 于话题 的文档总数 ;Ⅳl为包含单词 W的文档 总数 , 为属 于话 题 的文档总数 ; 为不包含单词 W的文档 总数 ,Ⅳ.。为不属于话 题 的 文 档 总 数 ;Ⅳ为 总文 档 数 目。 最后对于每个话题 ,用式 (3)计算 出每个 单词 的互信 息 ,并按 降序排序后 ,取 TOP N个单词作为话题词汇 。 3.4 热 点 话 题 微 博 推 荐 为 了将和热点话题相 关度最 高的微博 推荐 给用户 ,需要 计算每条微博和热点话题 的相关度 ,并 以此 进行 排序 。将 3.3 节 抽取出来 热点话题 的话题词 汇集合记 为 ,Vr= , :, , }(n为话 题词汇的个数);同时将微博 消息 包含 的单 … 词集合记为 , = t W ,W ,…,W }(m为消息 包含的 单词个 数)。微博 和话题 r,的相关度记为 C(M,T),C(M, )的计 算 方 式 如下 : c( ,T) = R(W,T) df( ) (4) 其 中:tfidf(W)为单词 W在消息 中的 tfidf权重 ,R(W,T)为 单词 W和话题 的关 联度 。R(W,T)的计算方式 如下 : , : V T ㈣ 即当单 词 出现在话题词汇集合 中时 ,认为 和话 题 的 关 联度 的关 联度 为 1;如果单词 W没有出现在 中,则计算单 词 在话题 相关 文档集合 T(d。:p ,d :p2,… ,d :pⅣ)中的 文档频率 矾 ,矾 等于 在 文档 集合 中出现 的文 档数 除以文 档总数 。利用式 (4)和(5)计 算微 博和话题之 间的相关度后 , 根据相关度大小进行排序再推荐给用户 。 4 实验 与 结果 分 析 4.1 实 验数 据 实验数据从 国内最 大的微博 网站新 浪微博进 行抓 取 ,通 过新浪提供 的 API一共抓 取 了 50 386个 用户 ,通过分 析用 户 之间的关 注(Follow)关系 ,去掉一 些被关注很 少的用户 后 ,筛 选 得到了 10488个我们认 为 比较重 要的用户。在 此基础上抓 取这些用户过去三个 月内所发的微 博消息 ,经过分词 ,去掉停 用词 ,过 滤掉 单词 个数 少 于 5个 的消 息后 得 到微 博 文本 共 2204520条 。 4.2 实 验 设 置 与 结 果 分 析 在利用扩展的话题模 型进行话题 抽取 之前 ,首先 基于微 博 的单词 向量进行聚类分析 ,聚类采用 K均值 算法 , 值指定 为 100。每次聚类从 2204520条微博 中随机抽取 出 50000条
第 8期 李劲等 :基 于特定领域 的中文微博 热点话题挖掘 系统 BTopicMiner 2349 微博 进行聚类 ,产生聚类 结果后将 每类 的微博 消息合 并成 一 对 于 名 称 确 定 的 评 价 ,只能 从 主 观 上 进 行 分 析 和 评 价 ,从 个 文 档 。 经 过 反 复 抽 样 、聚类 、微 博 消息 合 并 ,最 后 得 到 合 成 的微 博文档共 10220篇 。 下一 步利用扩展 的 LDA话题 模 型对得 到 的 10 220篇 合 成微博文 档进 行话 题抽 取 ,抽取 的话题 个数 指定 为 5。对 于 每个抽取 出的话题 ,取 产生概 率最高 的前 100篇文档 作为 话 表 1人工挑选 的话题词 汇可以看 出,根据算 法得 到名称基 本 可 以描 述 对 应 的话 题 。本 文 提 出 的话 题 模 型 和话 题 词 汇抽 取 算法可 以有效地提取 出话题及话题词 汇。为 了定量地 比较 自 动 抽 取 出 的热 点 话 题 词 汇 与人 工 挑 选 的热 点 话 题 词 汇 之 间 的 语义相 似度 ,利用 HowNet(http://www.keenage.com/html/e— 题最相关文档进行话题 词汇抽取。话题词汇抽取基于 3.3节 描述 的互 信息算法 ,对 每个话题抽 取 出互 信息最 高的 5个单 词作 为话题词汇 。 index.htm1)计算词 汇之间的相 似度 。对于话题 ,将 自动抽取 出的话题词汇表 记为 ,Vr= { , ,…, },人 工挑选 的 话 题 词 汇 表 记 为 ,W = {W。, ,… , },词 汇 和 之 为了方便实验对 比,采用 人工方 式从 下载 的微 博 消息 中 挑 选 出 5个 热 点 话 题 的微 博 消 息 ,并 采 用 词 频 统 计 +人 工 挑 选 的方法 列出每个话题 的话题 词汇 ;同时利 用扩展 的话 题模 型对这 5个热 点话题 的微 博进行话 题抽取 ,并利 用互信 息抽 取出话题词汇 ,通过人工 挑选 的热点词 汇对 自动抽 取 出的话 间 的相 似度 记 为 Sim( , ),则 词 汇 表 和 之 间 的 语 义 相 似 度 用 以式 (6)进 行 计 算 : Sim( , ) = Sim( , ) (6) 1 自动抽取 出的话题词汇与人 工挑选 的话题词 汇 (仅 列 出 题 词 汇 进 行 评 估 ,如 表 1所 示 。 前 5个 )之 间 的语 义 相 似 度 如 表 1所 示 。 表 1 人 -r#t选 与 自动 抽 取 的 热 点 话 题 和 热 点 词 汇 的语 义 相似 度 【 【 [ [ 剐 m ¨ 5 结 语 本文对如何从海量 微博消息数据集 中 自动检测 出热 点话 题 和 词 汇 话 题 进 行 了 研 究 。 通 过 分 析 微 博 消 息 的 跟 帖 关 系 , 发 现微博 的跟帖关 系蕴 涵着话 题之 间的关 联性 ,并在 此基础 上 提 出 了 扩 展 的 LDA 话 题 模 型 进 行 微 博 热 点 话 题 检 测 。为 了解决 文本稀疏性 问题 ,首 先对文 本聚类 处理得 到合成 的微 博文档 ,然后再利用扩 展的话题模型抽取话题 ,最后利用互信 息来 自动计 算热点话题词汇 。为 了验证所 提出的话 题模型 的 有效性 ,实现 了基 于特定领域 的热点话题 自动挖掘原型 系统。 实验结果表 明本文提出 的算法可 以较准确地 自动提取微博 中 的热点话题 ,同时 自动计算 出的热点话 题词 汇与人工选 取的 热点话题词 汇的语义相似度超过 75% 。 参考文献 : [1] ALLAN J,PAPKA R,LAVRENKO V.On—line new event detection and tracking[C]//SIGIR’98:Proceedings of the 21 th ACM SIGIR International Conference on Research and Development in Informa— tion Retrieva1. New York: ACM, 1998:37—45. [2] 路 荣 ,项亮 ,刘 明 荣 ,等 .基 于 隐 主题 分 析 和 文 本 聚类 的微 博 客新 闻话题 发现研究 [c]//第六 届全 国信息检 索学术会 议论文集 . 北京 :中国中文信 息学会 ,2010. [3] RAMAGE D,DUMAIS S T,LIEBLING D J.Characterizing microb— logs with topic models[C】//Proceedings of the Fourth International Conference on W eblogs and Social Media.Menlo Park:AAAI Press, 20lO:13O — l37. 【4] ASUNCION A,SMYTH P,WELLING M.Asynchronous distributed learning of topic models[C】//NIPS 2008:Proceedings of the 22th Annual Conference on Neural Information Processing Systems. At— lanta: Cuban Associates Inc,2008:81—88. [5】 BLEI D M,LAFFERTY J D.A correlated topic model of science [J】.Annals of Applied Statistics,2007,1(1):17—35. [6] SANKARANARAYANAN J, SAMET H,BENJAMIN E T,et a1. TwitterStand:news in Tweets[C】// Proceedings of the 17th ACM classification and summarization f C1// Proceedings of Human Lan— guage Technologies: Conference of the North American Chapter of the Association of Computational Linguistics.Stroudsburg:The As- sociation for Comoutational Linguisties.2010:685 —688. INOUYE D.Multiple post microblog summarization[R].Colorado Springs, GA:University of Colorado at Colorado Springs,2010. YEUNG C-M A. IW ATA T.Capturing implicit user influencein on- line social sharing[C]//Proceedings of the 21 th ACM Conference on Hypertext and Hyperm edia.New York:ACM.2010:245—254. ANAGN0STOPOUL0S A. KUMAR R. MAHDIAN M. Influence and correlation in social networks『C1// KDD'08: Proceeding of the 14th ACM Intemational Conference on Knowledge Discovery and Data Mining.New York:ACM.2008:7— 15. CRANDALL D. C0SLEY D.HU ITENL0CHER D, a1. Feed- back effects between similarity and social influenee in online com— munities『C1// KDD’O8: Proceedings of the 14th ACM Intem a— tional Confe-renee on Knowledge Discovery and Data Mining. New York:ACM .2008:160—168. G0YAL A.BONCHI F. I.AKSHMANAN L V S. Learning influ· enee probabilities in social networks 『C 1// W SDM’10: Proceed— ings of the Third ACM International Conference on W eb Search and Data Mining.New York:ACM.2010:24l一250. GUERRA P H C,VELOS0 A, MEIRA W ,Jr,e£a1.From bias to opinion: A transfer—learning approach to real—time sentiment an aly— sis『C1// KDD’11:Proceedings of the 17th ACM SIGKDD Inter- national Conference on Knowledge Discovery and Data Mining. New York:ACM.2011: 15O一158. SILVA I S. G0MIDE J。 VEL0S0 A, nZ. Eflfective sentiment stream analysis with self-augmenting training and deman d—driven pmjeetion[c]// SIGIR’l1:Proceeding of the 34th Intemational ACM SIGIR Confe-rence on Research an d Development in Informa- tion Retrieva1. New York:ACM.201 1:475 —484. W ANG XIAOLONG. W El FURU, LIU XIAOHUA,et a1. Topic sentiment analysis in Twitter: A graph—based hashtag sentiment SIGSPATIAL International Conference on Advances in Geographic classification approach[C]//CIKM ’l1:Proceedings of the 20th Information Systems.New York:ACM ,2009:42—51. ACM Conference on Information and Knowledge Management. New [7】 SHARIFI B M, HUTYON A,KALITA J K.Automatic mieroblog York: ACM . 2011:1031 — 1040.
分享到:
收藏