中国科技论文在线
http://www.paper.edu.cn
新浪微博用户的实时影响力研究
刘婵,张玉林**
(东南大学经济管理学院,南京,211189)
10
5 摘要:用户影响力研究现在已经成为微博研究领域的热点问题。本文的目的是通过研究新浪
微博“娱乐”标签下的部分用户,来分析微博用户的影响力情况。所用方法是将原有的
PageRank 算法进行改进,通过添加博文质量系数、用户活跃度两个指标,引入用户传播能
力这个因子,构建新的 UIRank 算法。结果表明,UIRank 算法是有效的,且与微博原有排名
机制相比,UIRank 算法能够更准确客观地描述用户影响力情况。本文得出的主要结论为:
微博用户由于受各种因素制约,其影响力大小各不相同,可利用一定的算法进行计算,衡量
用户影响力的大小,利用其影响力进行信息的传播等工作。
关键词:电子商务;新浪微博;用户影响力;PageRank 算法;UIRank 算法
中图分类号:G206
15
The research of weibo users' real-time influence
LIU Chan, ZHANG Yulin
20
25
(Economic Management School,Southeast University,Nanjing 211189)
Abstract: In this paper,we intend to study some users of weibo who attached with "Entertainment"
tab, to analyze the influence of microblogging users. The method used is that we improve the
original PageRank algorithm by adding two indicators:Bowen quality factor and users' activity, as
well as introduce a new factor:users' ability to communicate,to build new UIRank algorithms. The
results show that, UIRank algorithm is effective, and compared with the original microblogging
ranking system, UIRank algorithm can more accurately and objectively describe the users'
influence. The main conclusions of this article is: Due to various factors,microblogging users' ,
influence are different.A certain algorithm can be used to measure the influence of different users,
and in this case,their influence can be used to spread information and so on.
Key words: E-commerce;Sina weibo;User influence;PageRank algorithm;UIRank algorithm
30
0 引言
作为 Web2.0 类应用的微博,是继博客之后深受广大网民喜爱的网络交流工具。其每条
信息 140 字左右的要求,支持的关注、转发、评论、私信功能,随手可得的手机客户端支持,
给撰写、刷新、评论朋友微博提供了极大便利。
从人类行为动力学方面来说,个体影响力是指群体中的某个人,做了某项行为以后,导
35
致群体中其他个体的想法或行为相应发生改变的能力。而将之应用到社交网络中,用户的影
响力即指某用户采取某项行为后,引起其所在的社交网络群体中的其他用户的行为发生改变
的能力[1]。不同的用户影响力是存在差异的,在信息传播过程中所起的作用也有大有小。用
户促进信息传播的作用越大,说明用户的影响力越大。
40
在社交网络出现之前,早期的有关影响力的研究主要是集中在无向网络上,比较多的是
关于节点权威度、信息传播等方向[2-5]。另外,Wu 等主要研究的是在传播某个固定话题的时
候,哪些用户比较活跃[6];Domingos 等认为在信息传播过程中起到信息扩散作用的人,在
网络中的影响力较大[7]。
作者简介:刘婵(1990-),女,研究生,社交网络
通信联系人:张玉林(1964-),男,教授,供应链和收益管理. E-mail: zhangyl@seu.edu.cn
- 1 -
中国科技论文在线
1 文献综述
http://www.paper.edu.cn
随着社交网络的出现,学者们开始尝试对社交网络中的用户影响力进行研究。在人们刚
45
开始研究 Twitter 的时候,用户的粉丝数量曾经被认为可以很大程度上代表用户的影响力大
50
55
60
小。这种想法只适用于粗略估计影响力的大小,为了准确度量,Meeyoung 等人提出了粉丝
数量(Indegree)、转发次数(retweets)与引用次数(mentions)三个指数来评估用户的影
响力[8]。实验结果表明,粉丝数量多的人其被转发次数和被引用次数不一定多,所以只考虑
粉丝数量是不合理的。而上篇文献的三个指数只考虑到用户被动接受关注的情况,没有考虑
用户本身的主动性及其与他人的互动性,所以 Pal 根据用户的多方面属性,创建了一套独有
的指标体系来衡量影响力[9]。Daniel M.Romero[10]等人考虑到如果一个用户以往经常转发某
好友的消息,那么当他再次看到好友消息的时候,转发的可能性较高,所以在考虑影响者的
影响力(Influence)的时候,也要考虑被影响者的忠诚度(Passivity),由此基于 HITS 算
法,提出了 IP 算法(Influence and Passivity),这也再次表明消息的传播与粉丝数量并不具
有很强的关联性。特别的是,Daniel M.Romero[10]首次提出了概念清晰的影响力算法。
Haveliwala 基于 Web 网页的重要性评价方法,对 PageRank 算法进行改进,提出了一种
Topic-sensitive PageRank 算法[11],这种算法的改进之处在于用户的跳转不再是随机的,而是
有一定倾向性的,这样更容易使用户浏览到自己感兴趣的内容,在一定程度上提高了算法的
精确性。然而, Haveliwala[11]的缺陷在于没有考虑到用户兴趣爱好的差异性,只有用户关注
的话题相似的时候,他们才会对彼此产生影响。因此 Jianshu Weng 基于 Topic-sensitive
PageRank 算法,同时考虑到用户关注话题的相似性及网络结构,提出了一种适用于 Twitter
的影响力评估算法 TwitterRank[12]。然而,上述几种算法中即使用户正在浏览的页面不同,出
现随机跳转的概率却是固定不变的(一般为 0.15),导致算法的准确度受到影响。所以,Lu L
引入了超级节点的概念,并基于此提出了一种新的 LeaderRank 算法,使用户进行随机跳转的
65
概率可以因关注话题的不同而相应调节,且导出的链接数越多,跳转概率越小,呈现反向相
关性[13]。
新浪微博作为国内应用最广泛的社交网络,自然成为了用户影响力研究的热点。新浪微
博微数据可以用来评估微博用户的个人影响力,主要由覆盖度、传播力、活跃度三个方面综
合体现。此外,微博的用户影响力还可以通过其粉丝数量及其微博的转发评论点赞数量大致
70
估算。目前,微博还没有推出如 PageRank 这样官方推出并得到大众广泛使用的算法来准确
评估微博用户的影响力。
本文在上述研究的基础上,研究微博“娱乐”标签下的部分用户的影响力情况。选取特
定标签下的用户,分析此类用户的影响力情况,是本文的目的之一,这与上述文献中只是随
机分析一些用户是有明显区别的。除此之外,由于新浪微博本身有一定的用户排名机制,所
75
以将微博现有的排名机制与本文所介绍的算法相比较,结论是本文的算法能够更准确客观地
描述用户影响力情况。这也是本文研究的意义所在。
2 微博用户影响力评价算法
2.1 PageRank 算法
PageRank[14]是 Google 开发的一种经典的衡量网页重要性的算法。该算法的基本思想是
通过网页之间的链接情况来判断网页的重要性,即如果网页 i 能够链接到网页 j,就认为网
80
页 i 给网页 j 投了一票,认为得票数越高的网页重要性就越高。算法的表达式为:
- 2 -
中国科技论文在线
http://www.paper.edu.cn
其中, 指的是待评价的页面,
指的是页面 链接出的页面的数量,
指
的是链接入页面 的页面数量, 为阻尼系数,表示用户在浏览某个页面后以
的概率
85
继续浏览某个链出的页面,或者是以 的概率重新选择一个随机页面进行浏览,阻尼系数一
般取值为 0.15,加入阻尼系数可以确保算法的结果收敛。
经过对微博网络的分析发现,微博的网络结构类似于网页的网络结构,所以可以用
PageRank 算法对微博用户的影响力进行评价。但是该算法存在一定的缺陷,即 PageRank 算
法中页面的 PR 值是均匀地传递给每个链出的页面的,没有考虑到页面本身的重要程度。在
90
使用该算法评价微博用户影响力时,设想对 PageRank 算法进行改进,考虑用户本身的特性,
使其更贴合微博网络情况,并使用这种新的算法来计算分析微博用户的影响力。
2.2 微博用户影响力评价指标
2.2.1 博文质量系数
博文质量系数是指用户的平均每条微博被转发、评论以及点赞的次数。用户可以根据对
95
某条微博的感兴趣程度,发生转发等行为。转发等行为发生得越多,说明这条微博的质量越
高,用户的影响力也就越大。表达式为:
在上述式子中, 表示用户 的博文质量系数, 是指此用户微博的被转发次数,
表示被评论次数, 表示被点赞次数, 表示此用户所发微博的总数。
100
2.2.2 用户活跃度
用户活跃度是指用户一段时间内平均每天的发博数量。本文中这段时间为一个月,即指
用户在一个月内平均每天的发博数量。用户的发博情况又可以分为发布原创微博以及转发微
博两种。表达式为:
105
上式中, 表示用户 的活跃度, 表示用户在一个月内总的发布微博数量, =30。
2.2.3 用户传播能力
由博文质量系数以及用户活跃度这两个指标,定义了一个新的指标——用户传播能力,
用户传播能力为博文质量系数与用户活跃度这两个指标的乘积。表达式为:
110
2.3 UIRank 算法
由于 PageRank 算法中页面的 PR 值是均与地传递到链出的页面中的,没有考虑到页面
本身的重要性,所以在对 PageRank 算法进行改进的时候,将上文得到的新指标用户传播能
力作为分配 PR 值的标准,用户传播能力与分配的 PR 值呈现正相关的关系:用户传播能力
强的,分配的 PR 值就高;用户传播能力弱的,分配的 PR 值就低。最终得到的改进后的 UIRank
- 3 -
ddPiPageRank1PiMPjPjLPjPageRankPiPjLPjPiMPidd1dNiZiCiRiqiqiiRiCiZiNiTiniaiaiiniTiaiqisi
中国科技论文在线
http://www.paper.edu.cn
115
算法如下:
表示的是用户 分配给用户 的
值的所占比例,为用户 的传播能力占
用户 的所有好友的传播能力之和的比值,表达式为:
120
其中, 为用户 的好友总数。假设初始情况下所有人的 UIRank 值为 1,经过多次迭
代后,UIRank 值会收敛,最终得到用户们的 UIRank 值。
3 实验结果及分析
选取“娱乐”标签下的 100 名用户,采用 UIRank 算法对这些用户进行影响力的计算,
最终得到微博用户影响力的排名情况。
125
表 1 影响力前 10 名的用户
Tab. 1 The former 10 users’ influence
用户 ID
天天向上的乌龟
iwannabe
乐小源
Boating-Wu
田小四四
swswcan
小水的博博
朱岩 Luna
蝈蝈蝈蝈 9uo
这么点儿
关注
351
388
182
165
87
222
1181
252
513
322
粉丝
1796
652
786
667
379
345
352
904
320
430
微博
1450
2309
1056
901
3821
3654
806
5758
410
930
UIRank 值
8.3427
7.8801
7.3754
7.0579
6.9532
6.8436
6.5372
6.4470
6.0379
5.5730
由微博的“名人堂”应用可以看出,微博现有的用户排名机制是单纯按照粉丝数量多少
排名的,但其实这样是不太符合实际的。僵尸用户的存在,使得有些用户虽然粉丝数量很多,
130
但是每条微博的转发评论数并不多,且用户本身发布微博的数量也并不多,这样的排名机制
不能完整准确地表达微博用户的影响力情况。本文所提出的算法,周全考虑了用户发布微博
的数量及活跃度,以及发布微博的转发评论数量,能够更准确客观地表示微博用户的影响力
情况。
4 结论
135
本文给出了基于 PageRank 算法的改进后的算法——UIRank 算法对微博用户影响力进
行评价。综合考虑了微博用户的各方面特性,选取了部分用户进行了实时的影响力计算,得
到用户的综合影响力。这一算法对信息的发布与推广有重大的现实意义。
影响力大的用户,所发布的信息能够被更多人获取到,能够更广泛地传播,所以可以用
来进行一些商业的推广活动。比如可以选取影响力较大的用户,发布商品信息,进行宣传推
140
广,这也已经成为如今很多商家的推介手段之一。
- 4 -
ufvvUIRankuvSdduUIRank,1uvS,vuUIRankuvNiSiSuuvS1,Nv
中国科技论文在线
http://www.paper.edu.cn
本文选取的样本数据较简单,样本数据量不多,这一点需要进行完善,扩充样本数据量。
未来还要进一步进行的工作是,具体分析信息的传播过程,研究如何更好地进行信息的推广
过程。
[参考文献] (References)
145
150
155
160
165
[1] 王彪.社交网络中的用户影响力分析[D].哈尔滨:哈尔滨工业大学,2012.
[2] 王奇,宋国新,信息检索中基于链接的网页排序算法[J].华东理工大学学报:自然科学版,2000,5:455-458.
[3] 乔少杰,彭京等, 基于中心性和 PageRank 的网页综合评分方法[J].西南交通大学学报,2011,3:456-460.
[4] 王东,雷景生.一种基于 PageRank 的页面排序改进算法[J].微电子学与计算机,2009,26(4):210-213.
[5] 李绍华,高文宇.搜索引擎页面排序算法研究综述[J].计算机应用研究,2007,24(6):4-7.
[6] Wu,F.,Huberman,B.A.,Adamic,L.,Tyler.J.Information Flow in Social Groups.Physic A,2004,337(5):327-335.
[7] Domingos,P.,Richardson ,M.Mining the network value of customers [J].SIGKDD,2001.
[8] Meeyoung Cha,Hamed Haddadi,Fabricio Benevenuto ets.Measuring User Influence in Twitter: The Million
Follower Fallacy[A]. International AAAI Conference on Weblogs and Social Media(C).May 2010.
[9] Pal A, Counts S.Identifying topical authorities in microblogs[C]//Proceedings of the fourth ACM international
conference on Web search and data mining. ACM, 2011: 45-54.
[10] Daniel M.Romero, Wojciech Galuba,Sitaram Asur,Bernardo A.Huberman.Influence and Passivity in Social
Media [C]. ECML PKDD,2011.
[11] Haveliwala T H. Topic-sensitive pagerank[C]//Proceedings of the 11th international conference on World
Wide Web. ACM, 2002: 517-526.
[12]
Twitterers[C].WSDM'10, Feb 2010.
[13] Lu L,Zhang Y C, Yeung C H,et al. Leaders in social networks, the delicious case[J]. PloS one, 2011,
6(6):e21202.
[14] Page Lawrence,Brin Sergey. The PageRank Citation Ranking: Bring Order to the We[R].Technical report,
Stanford Digital Library Technologies Project.1998.
ets.TwitterRank:Finding Topic-sensitive
Influential
Jianshu Weng,Ee-Peng Lim,Jing
Jiang
- 5 -