第 35 卷第 6 期
2018 年 6 月
计 算 机 应 用 研 究
Application Research of Computers
Vol. 35 No. 6
Jun. 2018
基于发文内容的微博用户兴趣挖掘方法研究*
熊才伟1
2,曹亚男1
,
( 1. 中国科学院信息工程研究所 国家重点工程实验室,北京 100093; 2. 中国科学院大学 计算机与控制学院,
北京 100093)
摘 要: 针对微博用户兴趣属性缺失问题,提出一种基于发文内容分析的微博用户兴趣挖掘方法。利用基于短
语的主题模型和自动构建的用户兴趣知识库,能够有效地从发文内容中挖掘出高质量的用户兴趣短语并标志其
类别,从而实现对微博用户的兴趣挖掘。在 SMP CUP 2016 数据集上的实验结果表明,主题短语模型在困惑度和
短语质量上取得的效果均优于传统的主题模型,用户兴趣挖掘的准确率和召回率最高可达到 78% 和 82% 。
关键词: 微博; 发文内容; 兴趣挖掘; 主题短语模型; 知识库
中图分类号: TP301. 6
文献标志码: A
doi: 10. 3969 / j. issn. 1001-3695. 2018. 06. 004
文章编号: 1001-3695( 2018) 06-1619-05
Research of microblog user interest mining based on microblog posts
(
1. National Key Engineering Laboratory
,
2. School of Computer & Control Engineering
Institute of Information Engineering
,
University of Chinese Academy of Sciences
Chinese Academy of Sciences
,
Beijing 100093
,
China
Xiong Caiwei1
2 ,
,
Cao Yanan1
,
Beijing 100093
,
;
China
,
)
:
To abstract missing interests of microblog users
,
this paper proposed an data mining approach based on posting mes-
Abstract
,
sage analysis. Using the phrase-LDA and the user interest knowledge base constructed automatically
it could extract high-quali-
ty candidate interest phrases from posting messages and implement the interest classification. The experimental results on SMP
CUP 2016 dataset show that the phrase-LDA can achieve better results than traditional topic model on perplexity and phrase
quality. The accuracy rate and the recall rate of user interest mining can reach 78% and 82% at best respectively.
Key words
interests mining
knowledge base
microblog posts
phrase-LDA
microblog
:
;
;
;
;
0 引言
1
。
。
。
。
年龄
、
微博是基于社交关系来进行信息传播的媒体平台
作为
重要的社交网站,微博引发了众多的关注和研究
随着微博平
台的蓬勃发展,微博用户规模的不断增大,微博用户的属性
关
、
其中,
系和行为分析也逐渐成为学术界和工业界研究的热点
微博用户的兴趣爱好能够反映用户的倾向性,同时与用户性
职业等属性有着紧密的关联性,对于实现更精准的用
别
、
目前,微博用户注册
户群组划分和个性化推荐具有重要意义
],只依靠用户的注册信息
的兴趣标签缺失率达到
70%
]表明,发文内容通
不足以描述用户的兴趣情况
常隐含着丰富的兴趣信息,是挖掘微博用户兴趣的重要 数
据源
以上[
已有研究[
。
在基于微博用户的发文内容来挖掘用户的兴趣信息方面,
国内外学者开展了大量的研究工作
]利用基
方法从微博文本中挖掘用户兴趣关键词,准
于图的
]利用语
确率和召回率分别达到
43. 1% 。Vu
算法来挖掘用户兴趣,兴趣
言规则,并结合
和
TFIDF
挖掘的准确率能达到
等人[
]则利用时间序列进
行微博用户的兴趣挖掘,可将用户微博分类的准确率提高至
这些方法在挖掘微博用户的兴趣信息方面取得了一定
54. 5% 。Tao
。Mihalcea
TextRank
TextRank
等人[
等人[
31. 2%
和
。
2 ~ 4
5
2
3
67% 。
6
。
LDA
]利用
模型来分析挖掘用户的兴趣,证明
的效果,但由于没有利用文档内和文档间的统计特征,同时没
有考虑兴趣词的歧义性问题,所以在兴趣挖掘的准确率和召回
近年来,主题模型由于能够
率上仍无法满足实际应用的需要
利用文本中潜在的主题结构,适用于处理稀疏性高的短文本特
性,而被广泛地应用于微博用户的兴趣挖掘工作中
等
人[
模型能
够有效地挖掘文本中潜在的兴趣主题信息
]提
模型,能够从用户微博内容中挖掘出更高质量的
出
主题模型能够获取一系列可能性
关键词以表示用户的兴趣
最高的词来描述一个主题,从而挖掘出用户的潜在兴趣
然而
用词来表示兴趣具有很强的二义性; 同时,主题模型虽然能够
获取文本中的潜在主题,但却无法获得主题的语义标签,从而
无法对微博用户的兴趣进行明确标志
张晨逸等人[
MB-LDA
。Zhao
LDA
。
。
。
7
。
针对以上两个问题,本文通过挖掘用户发文内容中的主题
短语来识别用户兴趣
该方法分为以下两个阶段:
。
a
) 利用基于短语的主题模型挖掘用户的候选兴趣短语
。
相对于词,短语具有更加明确的语义信息,能够更加直观和准
确地表示一个特定的主题
数据集
上,分别采用基于词和基于短语的主题模型得到某个主题下的
词和短语的集合
在该
部分首先利用频繁项挖掘算法和短语结合度算法来从微博用
可以明显地看出短语的歧义性较小
SMP CUP 2016
是在
表
。
。
。
1
收稿日期: 2017-01-24; 修回日期: 2017-03-14
基金项目: 国家自然科学基金青年基金资助项目( 61403369) ; 国家科技部重大专项资助
项目( 2016YFB0801300)
作者简介: 熊才伟( 1991-) ,男,河南信阳人,硕士研究生,主要研究方向为数据挖掘、自然语言处理( wxiong126 @ 163. com) ; 曹亚男( 1986-) ,
女,副研究员,博士,主要研究方向为自然语言处理.
·0261·
计 算 机 应 用 研 究
第 35 卷
户的发文内容中挖掘出候选兴趣短语,然后利用主题短语模型
来得到微博用户的兴趣短语集合
。
表
1
相同主题下词和短语的集合
词
性能
板砖
相机
百度
科技
词
短语
打印
短语
强劲性能
b
3D
360
卫星
安全路由
数码相机
手机百度
暴风科技
锤子科技
滴滴红包
小米手机
3D
路由
安全
手机
小米
) 利用微博用户兴趣类别知识库对兴趣短语的类别进行
标志,从而实现对微博用户的兴趣分类
其主要工作包括微博
兴趣短语类别
兴趣类别知识库的构建
用户兴趣体系的构建
、
、
的自动标志三部分
本文通过分析微博平台的用户兴趣分布
情况,构建了一个二级的微博用户兴趣体系,并根据该体系,基
于开放数据源自动构建微博用户的兴趣类别知识库; 利用兴趣
短语的主题分布,结合微博用户兴趣类别知识库,实现兴趣短
语类别的自动标志
。
。
。
a
本文提出的方法具有以下几个优势:
) 利用统计学特性,
提出一种无监督的兴趣短语挖掘方法,能够快速地从微博用户
发文内容中提取出候选兴趣短语;
代替
来表示文档集合,能够获得高质量的兴趣短语
“bag-of-words”
集合,同时降低了主题模型的复杂度;
) 构建微博用户兴趣类
别知识库,通过引入知识库,实现了微博用户兴趣的细粒度划
分和明确的语义类别识别
“bag-of-phrases”
) 利用
b
c
。
1 国内外研究综述
9
5
8
TFIDF
等人[
等人[
]利用
。Salton
PageRank
。Mihalcea
TextRank
技术[
Top-M
]则尝试用
现有文献已经对基于文本分析的微博用户兴趣挖掘展开
方法,根据词语出现的
了诸多研究
频率来从微博用户发文内容中提取出候选词,并根据频率对候
选词进行排序,挑选出其中的
个词作为关键词来表示
用户兴趣
方法来建立一
个基于词的图,并在图上运用
]来进行候选关
键词的排序,以挖掘出用户兴趣关键词,能够获得
的准
确率和
] 使用内容指示词
( 用户兴趣所属的类别) 和动作指示词( 兴趣类别相关的动作)
的二元组集合来描述用户的兴趣,可有效挖掘出微博用户的实
]则考虑到用户微博的时间分布规律,利用
时兴趣
时间序列对用户微博进行分类,将用户微博分类的准确率提高
至
这些方法利用
了文本信息中词的统计特性或语义信息,在挖掘微博用户的兴
趣信息方面取得了一定的效果,但却无法利用文档内和文档间
的统计特征,也无法解决兴趣词的歧义性问题
,并在此基础上挖掘微博用户的兴趣
的召回率
。Banerjee
等人[
等人[
43. 1%
31. 2%
。Tao
67%
。
10
3
。
12
11
—
LDA
主题模 型 在 这 方 面 则 体 现 出 了 较 好 的 效 果
]利用
等
扩展文本特征空间,然后使用频率统计的方法
。Zhang
人[
来挖掘出热点话题,使得热点话题的排名更加靠前
等人[
有利于作者
LDA
特点话题的建模
]使用聚合信息训练
等人[
。Ramage
模型,实验结果显示该模型更
。Zhao
Twitter-
来对非热点话题词汇进行过滤,并与传统媒体中的热点
LDA
话题分布进行比较,发现微博中有很大部分话题是关于用户日
常生活的,更能体现出用户个人的兴趣爱好信息
张晨逸等
模型,能够从用户
人[
微博内容中挖掘出更高质量的关键词来表示用户的兴趣
以
上的研究均表明,主题模型通过利用文本中词与主题间的分布
模型的基础上提出了
MB-LDA
]提出了
]在
LDA
。
。
6
7
以及主题与文档间的分布,能够有效地从微博这类稀疏性高的
短文本中进行兴趣挖掘
但是已有工作仅对兴趣词进行主题
划分,并没有对主题的语义和用户兴趣类别进行明确标志
。
本文针对现有研究的不足,利用主题短语模型,从微博用
户发文内容中挖掘出更高质量的兴趣短语,并结合微博用户兴
趣知识库来识别微博用户兴趣的类别
。
。
2 候选兴趣短语挖掘
。
本章展示了一种能够从给定的已分词的文档集中获取高
该方法基于一个直观的假设,即
质量的候选兴趣短语的方法
高质量的兴趣短语是由一个或多个频繁且连续的词所组成的
。
该方法分为两个主要阶段:
) 频繁短语挖掘,即从文本中挖掘
出所有满足最小支持度的短语作为初始的候选兴趣短语集合;
) 短语过滤,即利用一种短语结合度算法对初始的候选兴趣
b
短语进行过滤,得到最终的候选兴趣短语集合
a
。
D
个文档的语料
(
) 表
首先,对问题进行如下描述: 给定包含
库,第
d
个文档由
示,令
D
N = ∑
d = 1
Nd 。
个词组成,每个词由
Nd
同时,本文将该语料库中所有不重复的词进
1 ≤ i≤ Nd
wd
,
i
行排序,构成一个词典
V
中的第
个元素是词典
,并且
wd
中的第
V
,
vk ∈V
个词
。
i = vk
,
k
,即在第
个文档
d
一个短语由一个或多个连续的词组成,短语用
,
…
,
i
n≥0。
} ,
,
i + n
P
i
定义 1
{
P =
表示,
,
wd
2. 1 频繁短语挖掘
wd
频繁短语挖掘的任务是从文档集中挖掘出满足最小支持
算法,本文利用以下两条性质来
Apriori
。
度的所有短语
基于
进行频繁短语的挖掘:
) 向下闭合引理
的短语也不是频繁项
a
。
) 数据的反单调性
b
。
如果短语
P
不是频繁项,则任何包含
P
。
如果一个文档中不包含长度为
的
n
频繁短语,则该文档中不包含长度大于
的频繁短语
n
。
本文利用这两条性质可以有效过滤稀疏的短语,并且可以
在不搜索过大候选短语空间的前提下更早地终止算法,使之具
本文利用一种长度增长的滑动窗从语料
备较好的时间效率
库中获取候选短语,并统计其出现次数
轮迭代中,对
在第
。
于每个仍保留的文档,如果长度为
的短语不满足最小支
持度,则迭代结束,该文档就会被移除出下一轮计算
该条件
也是本文算法的终止标准
k - 1
。
。
k
。
2. 2 短语过滤
。
bag-of-phrases
该算法是在
的假设上推导而来
短语过滤的任务是从候选兴趣短语集合中挑选出高质量
本节利用一种短语结合度算法来判断一个
的候选兴趣短语
候选兴趣短语是否应当保留,从而实现短语过滤功能
。
为了从统
计上解释短语的出现频率,可以考虑一种虚假设,即文档集是
在这种假设下,在文档集
由一系列独立的伯努利实验产生的
中特定位置出现的短语是伯努利随机变量的结果,并且短语的
在文档集中,短语的总
出现频率可以用二项分布来进行解释
可以设置为相当大,因此这个伯努利分布可以近似为正
数目
态分布,则随机变量
在文档集中的出现次数) 的
虚假设分布为
(
) ( 短语
) ) )
。
。
。
) )
P
P
L
(
f
(
(
(
(
h0
f
P
= N
1 - p
P
≈
Lp
(
N
Lp
P
(
(
) ,
Lp
) ,
Lp
P
) (
) )
P
(
P
(
)
1
熊才伟,等: 基于发文内容的微博用户兴趣挖掘方法研究
·1261·
一个短语在
是文档
中元素的个数;
表示的是词在主题下的多项分布;
第 6 期
其中:
(
p
P
) 是短语
P
的伯努利实验成功的概率
)
(
(
p
)
P
f
=
P
L
。
。
文档集中的出现概率可以估计为
考虑一个更
长的由短语
互独立,组合成一个新的短语的平均频率为
和
P2
P1
组成的短语,在本文的虚假设下,两者相
(
(
)
2
同时,由于整体方差满足最小支持度的样本数量是未知
⊕
的,所以可以用样本方差来估计整体方差,即
= Lp
⊕
P2
P1
P1
P2
) )
μ0
p
(
(
)
(
)
(
f
P2
) ,
(
f
本文利用一个显著性分数来计算两个短语是否应当组合
) 是样本短语的出现次数
P1 P2
。
σ2
P1
⊕
P2
= f
P1
成一个新短语的概率
。
(
sig
)
P1 P2
≈
f
P1
该显著性分数表达式为
⊕
⊕
(
)
(
P2
(
f
槡
- μ0
⊕
P1
P1
)
P2
P2
)
(
)
3
。
该显著性分数计算了组合短语的实际出现频率在虚假设
下偏离预期频率的标准差,高分数意味着两个短语的相关性非
常高且应该被合并在一起
。
利用该显著性分数,可以对文档集中的频繁短语进行合并
针对文档集中的每一句话,本文采用一种自底向上的合
操作
。
并方法
在每一次的迭代中都会合并显著性分数最高且满足阈
值的一个短语对
如果所有短语均被合并在一起或者剩下的所
有两两短语间的显著性分数均不满足阈值,则迭代终止
合并
只发生在同一句话中,使得短语的合并是符合语义规则的,从而
确保合并后的短语质量
短语合并算法具体如下所示
。
。
。
算法
1
短语合并算法
。
( )
H←MaxHeap
Place all contiguous token pairs into H with their significance score
key
while H. size
(
)
> 1 do
)
(
Best←H. getMax
if Best. Sig≥α then
Best
(
)
New←Merge
Remove Best from H
Update significance for New with its left instance and right
phrase instance
else
break
end
end
短语过滤正是在短语合并的过程中同时进行的
通过短
语合并,对所有由多个短语组成的频繁短语进行显著性判断,
并只保留显著性满足阈值的短语,以此来实现短语过滤功能
。
。
3 基于主题模型的兴趣短语聚类
通过候选兴趣短语挖掘,已经将文档集划分成了短语集
连续且非偶然性出现的
、
模型基础上,提出主题短语模型,用于
合,这些短语由一个或多个出现频繁
词所组成
进行微博用户的兴趣短语聚类
下面在
LDA
。
。
模型假设一个文档是一系列主题的混合,每一个主题
都被定义为词表中词的一个多项分布,一般的生成过程如下:
(
,
Φ
Θ
(
d
φk
表示的是主题在文档中的多项分布;
θd
的狄里克莱分布的超参数;
短语中第
个短语中的第
zd
个词的潜在主题;
个词
j
j
。
α
和
表示的是第
,
j
d
表示的是第
,
j
wd
,
g
,
g
分别是
β
θd
篇文档中第
和
g
篇文档中第
φk
个
d
g
LDA
和
β
数
α
的联合分布可以写为( 为简单起见,本文省略了超参
) :
PLDA
)
(
(
,
W
Z
)
,
Θ
)
,
Φ
,
Φ
=
(
p
∏
,
d
i
4
因为多项式分布与狄里克莱分布之间具有共轭性,可以很
,
i | θd
,
i | zd
∏
d
∏
k
Φk
wd
θd
zd
,
i
p
p
p
)
(
)
(
)
容易地计算{
} 的积分,即
(
(
1
C
1
C
k
(
)
(
)
(
)
Z
Z
PLDA
,
W
,
W
= ∫PLDA
,
Φ
接下来将进行主题模型的构造
,
5
Θ
在上文中将文档集表示
为短语集合,遵循这样一种设定,在同一个短语中的词很有可
能共享一个主题,用一个潜在方程
表
示短语
由此可定义所有随机变量之间的联合分布为
) 来表示,其中
Cd
Cd
。
Φ
,
g
,
g
Θ
d
d
(
f
)
(
)
。
(
,
W
,
Φ
,
Θ
)
=
Z
PLDA
6
是归一化后的常量,使得公式左边是一个合法的概率
C
由式(
) 可以得到该分布的简易形式:
PLDA
∏
,
d
g
Cd
,
g
Z
f
其中:
分布
,
W
,
Φ
,
Θ
)
(
)
(
)
。
5
(
)
,
W
PLDA
∏
,
d
g
在此,选择一个特殊的势函数来表示
PLDA
Z
Z
=
(
{
(
f
)
=
Cd
,
g
1
0
if zd
,
g
,
1 = zd
,
g
otherwise
)
,
W
(
f
)
Cd
,
g
)
f
,
g
Cd
,
,
2 = … = zd
g. wd
,
g
。
(
)
7
(
)
8
该势函数约束同一个短语中的词共享一个潜在主题
下来 本 文 采 用 一 个 紧 缩 的 吉 布 斯 采 样 方 法,从
(
) 中抽取一个对照组,并利用
Cd
,
g
,
Z \ Cd
p
Cd
g | W
,
中的所有变量均取值为
,
g
的情况,最终可得到表达式:
Cd
g = k
,
Cd
,
g
。
接
的 后 验
来表示
(
p
,
W | α
,
β
)
Z
这表明可采用典型的
LDA
(
,
W | α
1
C
Z
PLDA
=
方法中超参数
)
,
β
和
(
)
9
的调优方法
。
β
α
4 基于兴趣知识库的用户兴趣标志
本文的任务是对挖掘出来的主题短语进行进一步的语义
上的识别,实现微博用户的兴趣类别的自动标志
这需要外部
为了更加有效地完成这个目标,首先构建微博
知识库的支撑
用户兴趣体系,并根据该体系构建微博用户兴趣类别知识库,
从而结合主题短语挖掘结果,实现微博用户的兴趣类别识别
。
。
。
4. 1 微博用户兴趣体系
为了更加有效地构建微博用户兴趣类别知识库,首先需要构
建一个正交的
在大量调研的基
础上,本文构建了一个二级分类体系,尽可能涵盖微博用户的主
要兴趣类别
较为完备的微博用户兴趣体系
、
一级兴趣类别和部分二级兴趣类别如表
所示
。
2
。
。
表
2
微博用户兴趣体系
一级
类别
影视 爱情
音乐 民谣
二级类别
喜剧
、
电子
、
科幻
、
爵士
、
动画
、
说唱
、
悬疑
、
摇滚
、
…
…
体育 足球
篮球
、
网球
、
羽毛球
、
乒乓球
、
…
二级类别
一级
类别
财经 理财
经济管理
、
科技 计算机
健康
美食
娱乐 明星
社会 生活
购物 服饰
综艺
、
教育
、
礼品
、
烟草
、
饮食
金融
、
电子工程
、
…
汽车
、
机械
、
…
医学
、
医疗
、
…
摄影
…
、
房地产
、
旅游
、
法律
、
家居装饰
、
…
美容护肤
、
…
LDA
(
)
φk ~ dir
) 对于第
d
)
(
θd ~ dir
) 对于第
a
a
b
(
(
b
) ,
,
2
β
篇文档,
k = 1
,
…
d = 1
,
K
,
,
…
2
,
D
。
)
α
篇文档中的第
(
)
d
个元素,
i = 1
i
,
2
,
…
,
Nd 。
zd
wd
i ~ multi
,
i ~ multi
,
(
θd
φzd
)
,
i
表示的是主题个数;
其中:
K
表示的是文档个数;
D
表示的
Nd
游戏 手机游戏
网络游戏
单机游戏
、
、
读书 小说
传记
散文
哲学
管理
、
、
、
、
政治 公共管理
社会学
政治学
、
、
…
…
…
·2261·
计 算 机 应 用 研 究
兴趣体系的构建能够帮助明确微博用户的兴趣范围,从而
数据集是新浪微博的真实数据集,包含约
更加有效地构建微博用户的兴趣类别知识库
。
4. 2 兴趣知识库的自动构建
条微博内容
30 101 194
5. 2 实验设计及结果
。
第 35 卷
万个用户,超过
4. 6
为了实现用户兴趣类别的精准识别,需要根据微博用户的
为
兴趣体系,构建一个较为完备的微博用户兴趣类别知识库
。
了更加丰富知识库,本文结合两种方法来进行知识库的构建
对于专有名词类的兴趣类别关键词,如音乐名
。
电影名等,
、
搜狗词库等) 上爬取
本文利用爬虫程序在特定网站( 如豆瓣
、
相关词条,作为知识库中的兴趣类别关键词
部分能够表征特
拉杆等,在网站上往往难以以
定兴趣类别的关键词如
、
一个特定词条的形式出现,不能直接爬取
对于这类关键词,
方法对特定网站的内容进行分析,并选
本文采用了
择排名靠前的候选词作为兴趣类别关键词
通过这两方面的
工作,能够有效地构建一个较为完备的微博用户兴趣知识库
。
知识库中的部分类别关键词以及相对应的目标网站如表
所
示
TextRank
ace
球
。
。
。
3
。
表
3
知识库部分类别关键词及目标网站示例
兴趣类别
关键词
目标网站
我的中国心
音乐
青花瓷
、
电影 喜剧之王
湄公河行动
、
读书
孔乙己
生死疲劳
、
奥巴马
特朗普
政治
、
梅西
体育
姚明
球
、
、ace
…
…
4. 3 用户兴趣短语类别识别
豆瓣音乐
豆瓣电影
搜狗词条
、
搜狗词条
、
豆瓣读书
百度百科
虎扑
人民网
、
腾讯体育
、
…
利用微博用户兴趣类别知识库,可为聚类后的微博用户兴
趣短语赋予类别标签
本文结合短语在主题下的分布情况和
短语在兴趣类别下的分布情况,对用户兴趣短语的类别进行
标志
。
。
根据主题短语模型,可以得到某个短语
下
由微博用户兴趣类别知识库可以得到某
(
) 下的概率分布
在某个主题
P
z
(
)
,
1
,
…
,
k
p
P | i
。
(
)
p
P | z
。
在兴趣类别
的概率分布
个短语
本文对
P
(
p
P | i
i = 0
) 作出如下设定:
i
) 若知识库包含短语
a
,
(
p
P
)
P | i
=
{
1
if P∈i
0
otherwise
。
) 对该主题在各个兴趣类别下的分布概率进行排序,选
择概率最大的兴趣类别作为该主题的类别标志
。
通过上述步骤,能够有效结合兴趣短语的主题分布以及微
博用户兴趣类别知识库,实现用户兴趣短语类别的自动识别
。
5 实验及结果分析
5. 1 实验数据
本文采用
SMP CUP 2016
发布的数据集作为实验数据,该
P
,
(
p
)
P | i
,识别其兴趣类别
) 若知识库不包含短语
b
对于某个主题
) 基于短语在主题下的分布,依据短语分布概率
的大小对该主题下的所有短语进行排序,并挑选出前
语作为判别该主题的兴趣类别的标准短语
= 1。
的步骤如下:
a
z
i
。
)
P | z
个短
(
p
M
) 基于挑选出的
个标准短语,利用微博用户兴趣类别
M
知识库,统计该主题在各个兴趣类别上的概率分布情况
(
p
z |
b
c
) ,
(
p
i
)
z | i
=
(
)
P | i
p
∑
P∈z
) 。
(
p
P | i
k
∑
i = 0
∑
P∈z
为了详细说明本文方法的有效性,将分别从兴趣短语挖掘
和兴趣短语自动标志两方面的实验进行详细的说明
5. 2. 1 兴趣短语挖掘实验
。
针对主题短语模型,本文采用困惑度这一指标对比标准的
模型来衡量该方法的有效性
困惑度是衡量主题模型效
LDA
果的重要指标,其值越小,表明模型效果越好
的初始值分别设为
。
实验结果如图
和
。
0. 1
0. 01。
和
β
α
本文将
所示
1
。
实验结果表明,在不同的迭代次数下,主题短语模型在困
模型,这表明改进的主题
惑度的表现上始终优于标准的
短语模型在主题的聚类效果上表现得更为优异
LDA
。
同时,为了能够更加直观地观察主题短语算法的有效性,
本文针对基于词和基于短语的主题模型进行了实验验证,并使
用词和短语在主题下的分布频率作为词和短语的排序标准,列
举出了其中五个主题下的排名靠前的部分词语
实验结果如
可以明显看出,相比于基于词的主题模型,
表
本文的主题短语模型所得的主题词与在同一个主题下的关联
性明显更强,语义也更加明确,表明本文算法所得到的短语具
有较好的聚合效果
所示
由表
。
。
4
4
。
表
4
基于词和基于短语的主题模型实验结果对比
主题
1
存款
淘宝
京东
商城
背板
保暖
加绒
手套
下载
资料
主题
2
冯导
门票
龙女
春晚
投票
芈月
名单
琅琊
黄粱
注册
芈月传
琅琊榜
小龙女
冯导
预存款
淘宝
保暖衣
郎布鲁斯
达芙妮 黄粱伊梦
女款
综艺门票
肤水
清润
春晚
明星
名单
陈赫
京东商城
加绒手套
主题
3
新浪
直博
梅西
跑友
竞彩
投给
男孩
揭晓
跻身
足球快报
新浪足球直播
吨位
德安格罗
梅西
穆里奇
补篮
盛宴
跑友
投给
竞彩
词
短语
主题
4
汶川
屈原
大赛
人生
生活
造谣
签证
信号
黄金
科技
延参法师
汶川地震
屈原
爆照
阳光男孩
生活记录
居家必备
黄金屋
主题
5
3D
路由
安全
手机
小米
性能
板砖
相机
百度
打印
3D
安全路由
360
锤子科技
滴滴红包
小米手机
强劲性能
卫星
数码相机
剪刀手大赛 手机百度
暴风科技
人生
此外,为了验证本文算法的时间效率,针对不同规模的数
候选兴趣短语挖掘方法和
据集进行了时间效率的测试实验
主题短语模型方法在运行时间上的表现如图
所示
。
2
。
2
由图
可以看出,随着文档集规模的增加,短语构造方法
级
和主题模型方法在运行时间上呈现出近似线性的趋势(
别) ,这表明算法具有较高的时间效率
log
。
第 6 期
熊才伟,等: 基于发文内容的微博用户兴趣挖掘方法研究
·3261·
[6] Zhao W X,Jiang Jing,Weng Jianshu,et al. Comparing Twitter and tra-
ditional media using topic models[C]/ / Advances in Information Re-
trieval. Berlin: Springer,2011: 338-349.
[7] 张 晨 逸,孙 建 伶,丁 轶 群. 基 于 MD-LDA 模 型 的 微 博 主 题 挖 掘
[J]. 计算机研究与发展,2011,48( 10) : 1795-1802.
[8] Salton G,Buckley C. Term-weight approaches in automatic text re-
trieval[J]. Information Processing and Management,1988,24
( 5) : 513-523.
[9] Page L,Brin S,Motwani R,et al. The PageRank citation ranking: brin-
ging order to the Web[R]. Palo Alto. CA: Stanford Infolab,1999: 1-17.
[10] Banerjee N,Chakraborty D,Dasgupta K,et al. User interests in social
media sites: an exploration with micro-blogs[C]/ / Proc of the 18th
ACM Conference on Information and Knowledge Management. New
York: ACM Press,2009: 1823-1826.
[11] Zhang Silong,Luo Junyong,Liu Yan,et al. Hotspots detection on mi-
croblog [C]/ / Proc of the 4th International Conference on Multimedia
Information Networking and Security. Washington DC: IEEE Press,
2012: 922-925.
[12] Ramage D,Hall D,Nallapati R,et al. Labeled LDA: a supervised topic
model for credit attribution in multi-labeled corpora[C]/ / Proc of
Conference on Empirical Methods in Natural Language Processing.
Stroudsburg: ACL,2009: 248-256.
[13] Hu Xia,Sun Nan,Zhang Chao,et al. Exploiting internal and external
semantics for the clustering of short
texts using world knowledge
[C]/ / Proc of the 18th ACM Conference on Information and Know-
ledge management. New York: ACM Press,2009: 919-928.
[14] Abel F,Gao Qi,Houben G J,et al. Semantic enrichment of twitter
posts for user profile construction on the social Web[C]/ / Proc of the
8th Extended Semantic Web Conference on the Semantic Web: Re-
search and Applications. Berlin: Springer-Verlag,2011: 375-389.
[15] Musat C C,Velcin J,Trausan-Matu S,et al. Improving topic evaluation
using conceptual knowledge[C]/ / Proc of the 22nd International Joint
Conference on Artifical Intelligence. San Francisco: AAAI Press,
2011: 1866-1871.
[16] 王广新. 基于微博的用户兴趣分析与个性化信息推荐[D]. 上海:
上海交通大学,2013.
[17] 陈文涛,张小明,李舟军. 构建微博用户兴趣模型的主题模型的分
析[J]. 计算机科学,2013,40( 4) : 45-53.
[18] Welch M J,Schonfeld U,He Dan,et al. Topical semantics of twitter
links[C]/ / Proc of the 4th ACM International Conference on Web
Search and Data Mining. New York: ACM Press,2011: 327-336.
[19] Ma Yunfei,Zeng Yi,Ren Xu,et al. User interests modeling based on
multi-source personal
information fusion and semantic reasoning
[C]/ / Lecture Notes in Computer Science,vol 6890. Berlin: Springer,
2011: 195-205.
[20] Du Yajun,Hai Yufeng. Semantic ranking of Web pages based on for-
mal concept analysis[J]. Journal of Systems and Software,2013,
86( 1) : 187-197.
[21] Ramage D,Dumais S,Liebling D. Characterizing microblogs with topic
models[C]/ / Proc of the 4th International Conference on Weblogs &
Social Media. Palo Alto,CA: AAAI Press,2010: 130-137.
[22] Hong Liangjie,Davison B D. Empirical study of topic modeling in
Twitter[C]/ / Procs of the 1st Workshop on Social Media Analytics.
New York: ACM Press,2012: 80-88.
[23] Weng Jianshu,Lim E P,Jiang Jing,et al. TwitterRank: finding topic
sensitive influential twitterers[C]/ / Proc of the 3rd ACM International
Conference on Web Search and Data Mining. New York: ACM Press,
2010: 261-270.
5. 2. 2 兴趣短语自动标志实验
在兴趣短语的自动标志实验中,本文采取了人工判别的方
,对主题短语模
式来确保实验结果的准确性
型所得到的各个主题的类别进行识别,通过统计各个主题下短
语的类别识别结果,可以得到用户兴趣类别识别的准确率和召
回率
其实验结果如表
设定
值为
所示
100
。
M
。
5
。
用户兴趣类别识别实验结果
召回率
兴趣类别
准确率
召回率
表
5
准确率
0. 753 1
0. 781 9
0. 658 2
0. 701 4
0. 633 5
兴趣类别
影视
音乐
体育
游戏
读书
政治
由表
0. 801 2
0. 821 5
0. 751 4
0. 732 5
0. 523 8
财经
科技
健康美食
娱乐
社会
购物
0. 235 8
0. 305 6
0. 568 9
0. 706 9
0. 204 7
0. 306 5
0. 385 7
0. 601 8
0. 810 5
0. 358 2
5
0. 805 9
0. 687 4
0. 352 3
0. 303 8
结果可以看出,本文方法在用户兴趣类别识别上的
准确率和召回率最高可达到
游戏
、
、
娱乐和购物上都具有较好的表现,这说明本文方法能够有效识
别出用户兴趣的类别
科技和社会等
、
兴趣类别方面表现不佳,主要是由于微博用户兴趣类别知识库
构建尚不完善,将在笔者的下一步工作中进行改进
另外,本文方法在财经
,在影视
音乐
、
78%
82%
和
。
。
6 结束语
本文提出了一种基于发文内容的微博用户兴趣挖掘方法
。
该方法利用主题短语模型从用户发文内容中提取出高质量的
兴趣短语,并通过构建微博用户兴趣类别知识库来实现兴趣短
通过实验验证,证明了本文方法在微博用户兴
语的自动标志
趣挖掘的准确率和召回率上具有良好的表现,能够实现微博用
在下一步的工作中,鉴于微博用户兴趣类
户兴趣的有效挖掘
别知识库对于用户兴趣类别精准识别的重要性,笔者考虑更加
丰富和完善微博用户兴趣类别知识库来进一步提高用户兴趣
挖掘的准确率和召回率
。
。
。
参考文献:
[1] 丁宇新,肖骁,吴美晶,等. 基于半监督学习的社交网络用户属性
预测[J]. 通信学报,2014,35( 8) : 15-22.
[2] Vu T,Perez V. Interest mining from user Tweets[C]/ / Proc of the
22nd ACM International Conference on Information & Knowledge
Management. New York: ACM Press,2013: 1869-1872.
[3] Tao Yang,Lee D,Su Yan. Steeler NATION,12th man,and boo birds:
classifying Twitter user interests using time series[C]/ / Proc of IEEE /
ACM International Conference on Advances in Social Networks and
Mining. New York: ACM Press,2013: 684-691.
[4] He Li,Jia Yan,Han Weihong,et al. Mining user interest in microblogs
with a user-topic model[J]. China Communications,2014,11( 8) :
131-144.
[5] Mihalcea R,Tarau P. Textrank: bringing order into texts[EB / OL].
library. unt. edu / ark: /67531 /
( 2011- 01- 31 ) . https: / / digital.
metadc30962 / .