logo资料库

微博用户兴趣挖掘.pdf

第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
资料共5页,全文预览结束
第 35 卷第 6 期 2018 年 6 月 计 算 机 应 用 研 究 Application Research of Computers Vol. 35 No. 6 Jun. 2018 基于发文内容的微博用户兴趣挖掘方法研究* 熊才伟1 2,曹亚男1 , ( 1. 中国科学院信息工程研究所 国家重点工程实验室,北京 100093; 2. 中国科学院大学 计算机与控制学院, 北京 100093) 摘 要: 针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。利用基于短 语的主题模型和自动构建的用户兴趣知识库,能够有效地从发文内容中挖掘出高质量的用户兴趣短语并标志其 类别,从而实现对微博用户的兴趣挖掘。在 SMP CUP 2016 数据集上的实验结果表明,主题短语模型在困惑度和 短语质量上取得的效果均优于传统的主题模型,用户兴趣挖掘的准确率和召回率最高可达到 78% 和 82% 。 关键词: 微博; 发文内容; 兴趣挖掘; 主题短语模型; 知识库 中图分类号: TP301. 6 文献标志码: A doi: 10. 3969 / j. issn. 1001-3695. 2018. 06. 004 文章编号: 1001-3695( 2018) 06-1619-05 Research of microblog user interest mining based on microblog posts ( 1. National Key Engineering Laboratory , 2. School of Computer & Control Engineering Institute of Information Engineering , University of Chinese Academy of Sciences Chinese Academy of Sciences , Beijing 100093 , China Xiong Caiwei1 2 , , Cao Yanan1 , Beijing 100093 , ; China , ) : To abstract missing interests of microblog users , this paper proposed an data mining approach based on posting mes- Abstract , sage analysis. Using the phrase-LDA and the user interest knowledge base constructed automatically it could extract high-quali- ty candidate interest phrases from posting messages and implement the interest classification. The experimental results on SMP CUP 2016 dataset show that the phrase-LDA can achieve better results than traditional topic model on perplexity and phrase quality. The accuracy rate and the recall rate of user interest mining can reach 78% and 82% at best respectively. Key words interests mining knowledge base microblog posts phrase-LDA microblog : ; ; ; ; 0 引言 1 。 。 。 。 年龄 、 微博是基于社交关系来进行信息传播的媒体平台 作为 重要的社交网站,微博引发了众多的关注和研究 随着微博平 台的蓬勃发展,微博用户规模的不断增大,微博用户的属性 关 、 其中, 系和行为分析也逐渐成为学术界和工业界研究的热点 微博用户的兴趣爱好能够反映用户的倾向性,同时与用户性 职业等属性有着紧密的关联性,对于实现更精准的用 别 、 目前,微博用户注册 户群组划分和个性化推荐具有重要意义 ],只依靠用户的注册信息 的兴趣标签缺失率达到 70% ]表明,发文内容通 不足以描述用户的兴趣情况 常隐含着丰富的兴趣信息,是挖掘微博用户兴趣的重要 数 据源 以上[ 已有研究[ 。 在基于微博用户的发文内容来挖掘用户的兴趣信息方面, 国内外学者开展了大量的研究工作 ]利用基 方法从微博文本中挖掘用户兴趣关键词,准 于图的 ]利用语 确率和召回率分别达到 43. 1% 。Vu 算法来挖掘用户兴趣,兴趣 言规则,并结合 和 TFIDF 挖掘的准确率能达到 等人[ ]则利用时间序列进 行微博用户的兴趣挖掘,可将用户微博分类的准确率提高至 这些方法在挖掘微博用户的兴趣信息方面取得了一定 54. 5% 。Tao 。Mihalcea TextRank TextRank 等人[ 等人[ 31. 2% 和 。 2 ~ 4 5 2 3 67% 。 6 。 LDA ]利用 模型来分析挖掘用户的兴趣,证明 的效果,但由于没有利用文档内和文档间的统计特征,同时没 有考虑兴趣词的歧义性问题,所以在兴趣挖掘的准确率和召回 近年来,主题模型由于能够 率上仍无法满足实际应用的需要 利用文本中潜在的主题结构,适用于处理稀疏性高的短文本特 性,而被广泛地应用于微博用户的兴趣挖掘工作中 等 人[ 模型能 够有效地挖掘文本中潜在的兴趣主题信息 ]提 模型,能够从用户微博内容中挖掘出更高质量的 出 主题模型能够获取一系列可能性 关键词以表示用户的兴趣 最高的词来描述一个主题,从而挖掘出用户的潜在兴趣 然而 用词来表示兴趣具有很强的二义性; 同时,主题模型虽然能够 获取文本中的潜在主题,但却无法获得主题的语义标签,从而 无法对微博用户的兴趣进行明确标志 张晨逸等人[ MB-LDA 。Zhao LDA 。 。 。 7 。 针对以上两个问题,本文通过挖掘用户发文内容中的主题 短语来识别用户兴趣 该方法分为以下两个阶段: 。 a ) 利用基于短语的主题模型挖掘用户的候选兴趣短语 。 相对于词,短语具有更加明确的语义信息,能够更加直观和准 确地表示一个特定的主题 数据集 上,分别采用基于词和基于短语的主题模型得到某个主题下的 词和短语的集合 在该 部分首先利用频繁项挖掘算法和短语结合度算法来从微博用 可以明显地看出短语的歧义性较小 SMP CUP 2016 是在 表 。 。 。 1 收稿日期: 2017-01-24; 修回日期: 2017-03-14 基金项目: 国家自然科学基金青年基金资助项目( 61403369) ; 国家科技部重大专项资助 项目( 2016YFB0801300) 作者简介: 熊才伟( 1991-) ,男,河南信阳人,硕士研究生,主要研究方向为数据挖掘、自然语言处理( wxiong126 @ 163. com) ; 曹亚男( 1986-) , 女,副研究员,博士,主要研究方向为自然语言处理.
·0261· 计 算 机 应 用 研 究 第 35 卷 户的发文内容中挖掘出候选兴趣短语,然后利用主题短语模型 来得到微博用户的兴趣短语集合 。 表 1 相同主题下词和短语的集合 词 性能 板砖 相机 百度 科技 词 短语 打印 短语 强劲性能 b 3D 360 卫星 安全路由 数码相机 手机百度 暴风科技 锤子科技 滴滴红包 小米手机 3D 路由 安全 手机 小米 ) 利用微博用户兴趣类别知识库对兴趣短语的类别进行 标志,从而实现对微博用户的兴趣分类 其主要工作包括微博 兴趣短语类别 兴趣类别知识库的构建 用户兴趣体系的构建 、 、 的自动标志三部分 本文通过分析微博平台的用户兴趣分布 情况,构建了一个二级的微博用户兴趣体系,并根据该体系,基 于开放数据源自动构建微博用户的兴趣类别知识库; 利用兴趣 短语的主题分布,结合微博用户兴趣类别知识库,实现兴趣短 语类别的自动标志 。 。 。 a 本文提出的方法具有以下几个优势: ) 利用统计学特性, 提出一种无监督的兴趣短语挖掘方法,能够快速地从微博用户 发文内容中提取出候选兴趣短语; 代替 来表示文档集合,能够获得高质量的兴趣短语 “bag-of-words” 集合,同时降低了主题模型的复杂度; ) 构建微博用户兴趣类 别知识库,通过引入知识库,实现了微博用户兴趣的细粒度划 分和明确的语义类别识别 “bag-of-phrases” ) 利用 b c 。 1 国内外研究综述 9 5 8 TFIDF 等人[ 等人[ ]利用 。Salton PageRank 。Mihalcea TextRank 技术[ Top-M ]则尝试用 现有文献已经对基于文本分析的微博用户兴趣挖掘展开 方法,根据词语出现的 了诸多研究 频率来从微博用户发文内容中提取出候选词,并根据频率对候 选词进行排序,挑选出其中的 个词作为关键词来表示 用户兴趣 方法来建立一 个基于词的图,并在图上运用 ]来进行候选关 键词的排序,以挖掘出用户兴趣关键词,能够获得 的准 确率和 ] 使用内容指示词 ( 用户兴趣所属的类别) 和动作指示词( 兴趣类别相关的动作) 的二元组集合来描述用户的兴趣,可有效挖掘出微博用户的实 ]则考虑到用户微博的时间分布规律,利用 时兴趣 时间序列对用户微博进行分类,将用户微博分类的准确率提高 至 这些方法利用 了文本信息中词的统计特性或语义信息,在挖掘微博用户的兴 趣信息方面取得了一定的效果,但却无法利用文档内和文档间 的统计特征,也无法解决兴趣词的歧义性问题 ,并在此基础上挖掘微博用户的兴趣 的召回率 。Banerjee 等人[ 等人[ 43. 1% 31. 2% 。Tao 67% 。 10 3 。 12 11 — LDA 主题模 型 在 这 方 面 则 体 现 出 了 较 好 的 效 果 ]利用 等 扩展文本特征空间,然后使用频率统计的方法 。Zhang 人[ 来挖掘出热点话题,使得热点话题的排名更加靠前 等人[ 有利于作者 LDA 特点话题的建模 ]使用聚合信息训练 等人[ 。Ramage 模型,实验结果显示该模型更 。Zhao Twitter- 来对非热点话题词汇进行过滤,并与传统媒体中的热点 LDA 话题分布进行比较,发现微博中有很大部分话题是关于用户日 常生活的,更能体现出用户个人的兴趣爱好信息 张晨逸等 模型,能够从用户 人[ 微博内容中挖掘出更高质量的关键词来表示用户的兴趣 以 上的研究均表明,主题模型通过利用文本中词与主题间的分布 模型的基础上提出了 MB-LDA ]提出了 ]在 LDA 。 。 6 7 以及主题与文档间的分布,能够有效地从微博这类稀疏性高的 短文本中进行兴趣挖掘 但是已有工作仅对兴趣词进行主题 划分,并没有对主题的语义和用户兴趣类别进行明确标志 。 本文针对现有研究的不足,利用主题短语模型,从微博用 户发文内容中挖掘出更高质量的兴趣短语,并结合微博用户兴 趣知识库来识别微博用户兴趣的类别 。 。 2 候选兴趣短语挖掘 。 本章展示了一种能够从给定的已分词的文档集中获取高 该方法基于一个直观的假设,即 质量的候选兴趣短语的方法 高质量的兴趣短语是由一个或多个频繁且连续的词所组成的 。 该方法分为两个主要阶段: ) 频繁短语挖掘,即从文本中挖掘 出所有满足最小支持度的短语作为初始的候选兴趣短语集合; ) 短语过滤,即利用一种短语结合度算法对初始的候选兴趣 b 短语进行过滤,得到最终的候选兴趣短语集合 a 。 D 个文档的语料 ( ) 表 首先,对问题进行如下描述: 给定包含 库,第 d 个文档由 示,令 D N = ∑ d = 1 Nd 。 个词组成,每个词由 Nd 同时,本文将该语料库中所有不重复的词进 1 ≤ i≤ Nd wd , i 行排序,构成一个词典 V 中的第 个元素是词典 ,并且 wd 中的第 V , vk ∈V 个词 。 i = vk , k ,即在第 个文档 d 一个短语由一个或多个连续的词组成,短语用 , … , i n≥0。 } , , i + n P i 定义 1 { P = 表示, , wd 2. 1 频繁短语挖掘 wd 频繁短语挖掘的任务是从文档集中挖掘出满足最小支持 算法,本文利用以下两条性质来 Apriori 。 度的所有短语 基于 进行频繁短语的挖掘: ) 向下闭合引理 的短语也不是频繁项 a 。 ) 数据的反单调性 b 。 如果短语 P 不是频繁项,则任何包含 P 。 如果一个文档中不包含长度为 的 n 频繁短语,则该文档中不包含长度大于 的频繁短语 n 。 本文利用这两条性质可以有效过滤稀疏的短语,并且可以 在不搜索过大候选短语空间的前提下更早地终止算法,使之具 本文利用一种长度增长的滑动窗从语料 备较好的时间效率 库中获取候选短语,并统计其出现次数 轮迭代中,对 在第 。 于每个仍保留的文档,如果长度为 的短语不满足最小支 持度,则迭代结束,该文档就会被移除出下一轮计算 该条件 也是本文算法的终止标准 k - 1 。 。 k 。 2. 2 短语过滤 。 bag-of-phrases 该算法是在 的假设上推导而来 短语过滤的任务是从候选兴趣短语集合中挑选出高质量 本节利用一种短语结合度算法来判断一个 的候选兴趣短语 候选兴趣短语是否应当保留,从而实现短语过滤功能 。 为了从统 计上解释短语的出现频率,可以考虑一种虚假设,即文档集是 在这种假设下,在文档集 由一系列独立的伯努利实验产生的 中特定位置出现的短语是伯努利随机变量的结果,并且短语的 在文档集中,短语的总 出现频率可以用二项分布来进行解释 可以设置为相当大,因此这个伯努利分布可以近似为正 数目 态分布,则随机变量 在文档集中的出现次数) 的 虚假设分布为 ( ) ( 短语 ) ) ) 。 。 。 ) ) P P L ( f ( ( ( ( h0 f P = N 1 - p P ≈ Lp ( N Lp P ( ( ) , Lp ) , Lp P ) ( ) ) P ( P ( ) 1
熊才伟,等: 基于发文内容的微博用户兴趣挖掘方法研究 ·1261· 一个短语在 是文档 中元素的个数; 表示的是词在主题下的多项分布; 第 6 期 其中: ( p P ) 是短语 P 的伯努利实验成功的概率 ) ( ( p ) P f = P L 。 。 文档集中的出现概率可以估计为 考虑一个更 长的由短语 互独立,组合成一个新的短语的平均频率为 和 P2 P1 组成的短语,在本文的虚假设下,两者相 ( ( ) 2 同时,由于整体方差满足最小支持度的样本数量是未知 ⊕ 的,所以可以用样本方差来估计整体方差,即 = Lp ⊕ P2 P1 P1 P2 ) ) μ0 p ( ( ) ( ) ( f P2 ) , ( f 本文利用一个显著性分数来计算两个短语是否应当组合 ) 是样本短语的出现次数 P1 P2 。 σ2 P1 ⊕ P2 = f P1 成一个新短语的概率 。 ( sig ) P1 P2 ≈ f P1 该显著性分数表达式为 ⊕ ⊕ ( ) ( P2 ( f 槡 - μ0 ⊕ P1 P1 ) P2 P2 ) ( ) 3 。 该显著性分数计算了组合短语的实际出现频率在虚假设 下偏离预期频率的标准差,高分数意味着两个短语的相关性非 常高且应该被合并在一起 。 利用该显著性分数,可以对文档集中的频繁短语进行合并 针对文档集中的每一句话,本文采用一种自底向上的合 操作 。 并方法 在每一次的迭代中都会合并显著性分数最高且满足阈 值的一个短语对 如果所有短语均被合并在一起或者剩下的所 有两两短语间的显著性分数均不满足阈值,则迭代终止 合并 只发生在同一句话中,使得短语的合并是符合语义规则的,从而 确保合并后的短语质量 短语合并算法具体如下所示 。 。 。 算法 1 短语合并算法 。 ( ) H←MaxHeap Place all contiguous token pairs into H with their significance score key while H. size ( ) > 1 do ) ( Best←H. getMax if Best. Sig≥α then Best ( ) New←Merge Remove Best from H Update significance for New with its left instance and right phrase instance else break end end 短语过滤正是在短语合并的过程中同时进行的 通过短 语合并,对所有由多个短语组成的频繁短语进行显著性判断, 并只保留显著性满足阈值的短语,以此来实现短语过滤功能 。 。 3 基于主题模型的兴趣短语聚类 通过候选兴趣短语挖掘,已经将文档集划分成了短语集 连续且非偶然性出现的 、 模型基础上,提出主题短语模型,用于 合,这些短语由一个或多个出现频繁 词所组成 进行微博用户的兴趣短语聚类 下面在 LDA 。 。 模型假设一个文档是一系列主题的混合,每一个主题 都被定义为词表中词的一个多项分布,一般的生成过程如下: ( , Φ Θ ( d φk 表示的是主题在文档中的多项分布; θd 的狄里克莱分布的超参数; 短语中第 个短语中的第 zd 个词的潜在主题; 个词 j j 。 α 和 表示的是第 , j d 表示的是第 , j wd , g , g 分别是 β θd 篇文档中第 和 g 篇文档中第 φk 个 d g LDA 和 β 数 α 的联合分布可以写为( 为简单起见,本文省略了超参 ) : PLDA ) ( ( , W Z ) , Θ ) , Φ , Φ = ( p ∏ , d i 4 因为多项式分布与狄里克莱分布之间具有共轭性,可以很 , i | θd , i | zd ∏ d ∏ k Φk wd θd zd , i p p p ) ( ) ( ) 容易地计算{ } 的积分,即 ( ( 1 C 1 C k ( ) ( ) ( ) Z Z PLDA , W , W = ∫PLDA , Φ 接下来将进行主题模型的构造 , 5 Θ 在上文中将文档集表示 为短语集合,遵循这样一种设定,在同一个短语中的词很有可 能共享一个主题,用一个潜在方程 表 示短语 由此可定义所有随机变量之间的联合分布为 ) 来表示,其中 Cd Cd 。 Φ , g , g Θ d d ( f ) ( ) 。 ( , W , Φ , Θ ) = Z PLDA 6 是归一化后的常量,使得公式左边是一个合法的概率 C 由式( ) 可以得到该分布的简易形式: PLDA ∏ , d g Cd , g Z f 其中: 分布 , W , Φ , Θ ) ( ) ( ) 。 5 ( ) , W PLDA ∏ , d g 在此,选择一个特殊的势函数来表示 PLDA Z Z = ( { ( f ) = Cd , g 1 0 if zd , g , 1 = zd , g otherwise ) , W ( f ) Cd , g ) f , g Cd , , 2 = … = zd g. wd , g 。 ( ) 7 ( ) 8 该势函数约束同一个短语中的词共享一个潜在主题 下来 本 文 采 用 一 个 紧 缩 的 吉 布 斯 采 样 方 法,从 ( ) 中抽取一个对照组,并利用 Cd , g , Z \ Cd p Cd g | W , 中的所有变量均取值为 , g 的情况,最终可得到表达式: Cd g = k , Cd , g 。 接 的 后 验 来表示 ( p , W | α , β ) Z 这表明可采用典型的 LDA ( , W | α 1 C Z PLDA = 方法中超参数 ) , β 和 ( ) 9 的调优方法 。 β α 4 基于兴趣知识库的用户兴趣标志 本文的任务是对挖掘出来的主题短语进行进一步的语义 上的识别,实现微博用户的兴趣类别的自动标志 这需要外部 为了更加有效地完成这个目标,首先构建微博 知识库的支撑 用户兴趣体系,并根据该体系构建微博用户兴趣类别知识库, 从而结合主题短语挖掘结果,实现微博用户的兴趣类别识别 。 。 。 4. 1 微博用户兴趣体系 为了更加有效地构建微博用户兴趣类别知识库,首先需要构 建一个正交的 在大量调研的基 础上,本文构建了一个二级分类体系,尽可能涵盖微博用户的主 要兴趣类别 较为完备的微博用户兴趣体系 、 一级兴趣类别和部分二级兴趣类别如表 所示 。 2 。 。 表 2 微博用户兴趣体系 一级 类别 影视 爱情 音乐 民谣 二级类别 喜剧 、 电子 、 科幻 、 爵士 、 动画 、 说唱 、 悬疑 、 摇滚 、 … … 体育 足球 篮球 、 网球 、 羽毛球 、 乒乓球 、 … 二级类别 一级 类别 财经 理财 经济管理 、 科技 计算机 健康 美食 娱乐 明星 社会 生活 购物 服饰 综艺 、 教育 、 礼品 、 烟草 、 饮食 金融 、 电子工程 、 … 汽车 、 机械 、 … 医学 、 医疗 、 … 摄影 … 、 房地产 、 旅游 、 法律 、 家居装饰 、 … 美容护肤 、 … LDA ( ) φk ~ dir ) 对于第 d ) ( θd ~ dir ) 对于第 a a b ( ( b ) , , 2 β 篇文档, k = 1 , … d = 1 , K , , … 2 , D 。 ) α 篇文档中的第 ( ) d 个元素, i = 1 i , 2 , … , Nd 。 zd wd i ~ multi , i ~ multi , ( θd φzd ) , i 表示的是主题个数; 其中: K 表示的是文档个数; D 表示的 Nd 游戏 手机游戏 网络游戏 单机游戏 、 、 读书 小说 传记 散文 哲学 管理 、 、 、 、 政治 公共管理 社会学 政治学 、 、 … … …
·2261· 计 算 机 应 用 研 究 兴趣体系的构建能够帮助明确微博用户的兴趣范围,从而 数据集是新浪微博的真实数据集,包含约 更加有效地构建微博用户的兴趣类别知识库 。 4. 2 兴趣知识库的自动构建 条微博内容 30 101 194 5. 2 实验设计及结果 。 第 35 卷 万个用户,超过 4. 6 为了实现用户兴趣类别的精准识别,需要根据微博用户的 为 兴趣体系,构建一个较为完备的微博用户兴趣类别知识库 。 了更加丰富知识库,本文结合两种方法来进行知识库的构建 对于专有名词类的兴趣类别关键词,如音乐名 。 电影名等, 、 搜狗词库等) 上爬取 本文利用爬虫程序在特定网站( 如豆瓣 、 相关词条,作为知识库中的兴趣类别关键词 部分能够表征特 拉杆等,在网站上往往难以以 定兴趣类别的关键词如 、 一个特定词条的形式出现,不能直接爬取 对于这类关键词, 方法对特定网站的内容进行分析,并选 本文采用了 择排名靠前的候选词作为兴趣类别关键词 通过这两方面的 工作,能够有效地构建一个较为完备的微博用户兴趣知识库 。 知识库中的部分类别关键词以及相对应的目标网站如表 所 示 TextRank ace 球 。 。 。 3 。 表 3 知识库部分类别关键词及目标网站示例 兴趣类别 关键词 目标网站 我的中国心 音乐 青花瓷 、 电影 喜剧之王 湄公河行动 、 读书 孔乙己 生死疲劳 、 奥巴马 特朗普 政治 、 梅西 体育 姚明 球 、 、ace … … 4. 3 用户兴趣短语类别识别 豆瓣音乐 豆瓣电影 搜狗词条 、 搜狗词条 、 豆瓣读书 百度百科 虎扑 人民网 、 腾讯体育 、 … 利用微博用户兴趣类别知识库,可为聚类后的微博用户兴 趣短语赋予类别标签 本文结合短语在主题下的分布情况和 短语在兴趣类别下的分布情况,对用户兴趣短语的类别进行 标志 。 。 根据主题短语模型,可以得到某个短语 下 由微博用户兴趣类别知识库可以得到某 ( ) 下的概率分布 在某个主题 P z ( ) , 1 , … , k p P | i 。 ( ) p P | z 。 在兴趣类别 的概率分布 个短语 本文对 P ( p P | i i = 0 ) 作出如下设定: i ) 若知识库包含短语 a , ( p P ) P | i = { 1 if P∈i 0 otherwise 。 ) 对该主题在各个兴趣类别下的分布概率进行排序,选 择概率最大的兴趣类别作为该主题的类别标志 。 通过上述步骤,能够有效结合兴趣短语的主题分布以及微 博用户兴趣类别知识库,实现用户兴趣短语类别的自动识别 。 5 实验及结果分析 5. 1 实验数据 本文采用 SMP CUP 2016 发布的数据集作为实验数据,该 P , ( p ) P | i ,识别其兴趣类别 ) 若知识库不包含短语 b 对于某个主题 ) 基于短语在主题下的分布,依据短语分布概率 的大小对该主题下的所有短语进行排序,并挑选出前 语作为判别该主题的兴趣类别的标准短语 = 1。 的步骤如下: a z i 。 ) P | z 个短 ( p M ) 基于挑选出的 个标准短语,利用微博用户兴趣类别 M 知识库,统计该主题在各个兴趣类别上的概率分布情况 ( p z | b c ) , ( p i ) z | i = ( ) P | i p ∑ P∈z ) 。 ( p P | i k ∑ i = 0 ∑ P∈z 为了详细说明本文方法的有效性,将分别从兴趣短语挖掘 和兴趣短语自动标志两方面的实验进行详细的说明 5. 2. 1 兴趣短语挖掘实验 。 针对主题短语模型,本文采用困惑度这一指标对比标准的 模型来衡量该方法的有效性 困惑度是衡量主题模型效 LDA 果的重要指标,其值越小,表明模型效果越好 的初始值分别设为 。 实验结果如图 和 。 0. 1 0. 01。 和 β α 本文将 所示 1 。 实验结果表明,在不同的迭代次数下,主题短语模型在困 模型,这表明改进的主题 惑度的表现上始终优于标准的 短语模型在主题的聚类效果上表现得更为优异 LDA 。 同时,为了能够更加直观地观察主题短语算法的有效性, 本文针对基于词和基于短语的主题模型进行了实验验证,并使 用词和短语在主题下的分布频率作为词和短语的排序标准,列 举出了其中五个主题下的排名靠前的部分词语 实验结果如 可以明显看出,相比于基于词的主题模型, 表 本文的主题短语模型所得的主题词与在同一个主题下的关联 性明显更强,语义也更加明确,表明本文算法所得到的短语具 有较好的聚合效果 所示 由表 。 。 4 4 。 表 4 基于词和基于短语的主题模型实验结果对比 主题 1 存款 淘宝 京东 商城 背板 保暖 加绒 手套 下载 资料 主题 2 冯导 门票 龙女 春晚 投票 芈月 名单 琅琊 黄粱 注册 芈月传 琅琊榜 小龙女 冯导 预存款 淘宝 保暖衣 郎布鲁斯 达芙妮 黄粱伊梦 女款 综艺门票 肤水 清润 春晚 明星 名单 陈赫 京东商城 加绒手套 主题 3 新浪 直博 梅西 跑友 竞彩 投给 男孩 揭晓 跻身 足球快报 新浪足球直播 吨位 德安格罗 梅西 穆里奇 补篮 盛宴 跑友 投给 竞彩 词 短语 主题 4 汶川 屈原 大赛 人生 生活 造谣 签证 信号 黄金 科技 延参法师 汶川地震 屈原 爆照 阳光男孩 生活记录 居家必备 黄金屋 主题 5 3D 路由 安全 手机 小米 性能 板砖 相机 百度 打印 3D 安全路由 360 锤子科技 滴滴红包 小米手机 强劲性能 卫星 数码相机 剪刀手大赛 手机百度 暴风科技 人生 此外,为了验证本文算法的时间效率,针对不同规模的数 候选兴趣短语挖掘方法和 据集进行了时间效率的测试实验 主题短语模型方法在运行时间上的表现如图 所示 。 2 。 2 由图 可以看出,随着文档集规模的增加,短语构造方法 级 和主题模型方法在运行时间上呈现出近似线性的趋势( 别) ,这表明算法具有较高的时间效率 log 。
第 6 期 熊才伟,等: 基于发文内容的微博用户兴趣挖掘方法研究 ·3261· [6] Zhao W X,Jiang Jing,Weng Jianshu,et al. Comparing Twitter and tra- ditional media using topic models[C]/ / Advances in Information Re- trieval. Berlin: Springer,2011: 338-349. [7] 张 晨 逸,孙 建 伶,丁 轶 群. 基 于 MD-LDA 模 型 的 微 博 主 题 挖 掘 [J]. 计算机研究与发展,2011,48( 10) : 1795-1802. [8] Salton G,Buckley C. Term-weight approaches in automatic text re- trieval[J]. Information Processing and Management,1988,24 ( 5) : 513-523. [9] Page L,Brin S,Motwani R,et al. The PageRank citation ranking: brin- ging order to the Web[R]. Palo Alto. CA: Stanford Infolab,1999: 1-17. [10] Banerjee N,Chakraborty D,Dasgupta K,et al. User interests in social media sites: an exploration with micro-blogs[C]/ / Proc of the 18th ACM Conference on Information and Knowledge Management. New York: ACM Press,2009: 1823-1826. [11] Zhang Silong,Luo Junyong,Liu Yan,et al. Hotspots detection on mi- croblog [C]/ / Proc of the 4th International Conference on Multimedia Information Networking and Security. Washington DC: IEEE Press, 2012: 922-925. [12] Ramage D,Hall D,Nallapati R,et al. Labeled LDA: a supervised topic model for credit attribution in multi-labeled corpora[C]/ / Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL,2009: 248-256. [13] Hu Xia,Sun Nan,Zhang Chao,et al. Exploiting internal and external semantics for the clustering of short texts using world knowledge [C]/ / Proc of the 18th ACM Conference on Information and Know- ledge management. New York: ACM Press,2009: 919-928. [14] Abel F,Gao Qi,Houben G J,et al. Semantic enrichment of twitter posts for user profile construction on the social Web[C]/ / Proc of the 8th Extended Semantic Web Conference on the Semantic Web: Re- search and Applications. Berlin: Springer-Verlag,2011: 375-389. [15] Musat C C,Velcin J,Trausan-Matu S,et al. Improving topic evaluation using conceptual knowledge[C]/ / Proc of the 22nd International Joint Conference on Artifical Intelligence. San Francisco: AAAI Press, 2011: 1866-1871. [16] 王广新. 基于微博的用户兴趣分析与个性化信息推荐[D]. 上海: 上海交通大学,2013. [17] 陈文涛,张小明,李舟军. 构建微博用户兴趣模型的主题模型的分 析[J]. 计算机科学,2013,40( 4) : 45-53. [18] Welch M J,Schonfeld U,He Dan,et al. Topical semantics of twitter links[C]/ / Proc of the 4th ACM International Conference on Web Search and Data Mining. New York: ACM Press,2011: 327-336. [19] Ma Yunfei,Zeng Yi,Ren Xu,et al. User interests modeling based on multi-source personal information fusion and semantic reasoning [C]/ / Lecture Notes in Computer Science,vol 6890. Berlin: Springer, 2011: 195-205. [20] Du Yajun,Hai Yufeng. Semantic ranking of Web pages based on for- mal concept analysis[J]. Journal of Systems and Software,2013, 86( 1) : 187-197. [21] Ramage D,Dumais S,Liebling D. Characterizing microblogs with topic models[C]/ / Proc of the 4th International Conference on Weblogs & Social Media. Palo Alto,CA: AAAI Press,2010: 130-137. [22] Hong Liangjie,Davison B D. Empirical study of topic modeling in Twitter[C]/ / Procs of the 1st Workshop on Social Media Analytics. New York: ACM Press,2012: 80-88. [23] Weng Jianshu,Lim E P,Jiang Jing,et al. TwitterRank: finding topic sensitive influential twitterers[C]/ / Proc of the 3rd ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2010: 261-270. 5. 2. 2 兴趣短语自动标志实验 在兴趣短语的自动标志实验中,本文采取了人工判别的方 ,对主题短语模 式来确保实验结果的准确性 型所得到的各个主题的类别进行识别,通过统计各个主题下短 语的类别识别结果,可以得到用户兴趣类别识别的准确率和召 回率 其实验结果如表 设定 值为 所示 100 。 M 。 5 。 用户兴趣类别识别实验结果 召回率 兴趣类别 准确率 召回率 表 5 准确率 0. 753 1 0. 781 9 0. 658 2 0. 701 4 0. 633 5 兴趣类别 影视 音乐 体育 游戏 读书 政治 由表 0. 801 2 0. 821 5 0. 751 4 0. 732 5 0. 523 8 财经 科技 健康美食 娱乐 社会 购物 0. 235 8 0. 305 6 0. 568 9 0. 706 9 0. 204 7 0. 306 5 0. 385 7 0. 601 8 0. 810 5 0. 358 2 5 0. 805 9 0. 687 4 0. 352 3 0. 303 8 结果可以看出,本文方法在用户兴趣类别识别上的 准确率和召回率最高可达到 游戏 、 、 娱乐和购物上都具有较好的表现,这说明本文方法能够有效识 别出用户兴趣的类别 科技和社会等 、 兴趣类别方面表现不佳,主要是由于微博用户兴趣类别知识库 构建尚不完善,将在笔者的下一步工作中进行改进 另外,本文方法在财经 ,在影视 音乐 、 78% 82% 和 。 。 6 结束语 本文提出了一种基于发文内容的微博用户兴趣挖掘方法 。 该方法利用主题短语模型从用户发文内容中提取出高质量的 兴趣短语,并通过构建微博用户兴趣类别知识库来实现兴趣短 通过实验验证,证明了本文方法在微博用户兴 语的自动标志 趣挖掘的准确率和召回率上具有良好的表现,能够实现微博用 在下一步的工作中,鉴于微博用户兴趣类 户兴趣的有效挖掘 别知识库对于用户兴趣类别精准识别的重要性,笔者考虑更加 丰富和完善微博用户兴趣类别知识库来进一步提高用户兴趣 挖掘的准确率和召回率 。 。 。 参考文献: [1] 丁宇新,肖骁,吴美晶,等. 基于半监督学习的社交网络用户属性 预测[J]. 通信学报,2014,35( 8) : 15-22. [2] Vu T,Perez V. Interest mining from user Tweets[C]/ / Proc of the 22nd ACM International Conference on Information & Knowledge Management. New York: ACM Press,2013: 1869-1872. [3] Tao Yang,Lee D,Su Yan. Steeler NATION,12th man,and boo birds: classifying Twitter user interests using time series[C]/ / Proc of IEEE / ACM International Conference on Advances in Social Networks and Mining. New York: ACM Press,2013: 684-691. [4] He Li,Jia Yan,Han Weihong,et al. Mining user interest in microblogs with a user-topic model[J]. China Communications,2014,11( 8) : 131-144. [5] Mihalcea R,Tarau P. Textrank: bringing order into texts[EB / OL]. library. unt. edu / ark: /67531 / ( 2011- 01- 31 ) . https: / / digital. metadc30962 / .
分享到:
收藏