logo资料库

基于微博数据的用户特征分析及行为预测.pdf

第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
资料共7页,全文预览结束
中国科技论文在线 http://www.paper.edu.cn 基于微博数据的用户特征分析及行为预测 付旭佳,靳浩** 5 10 (北京邮电大学泛网无线通信教育部重点实验室,北京,100876) 摘要:随着社会网络的快速发展,用户行为分析和预测成为研究的热点。研究针对微博用户 的用户活跃度和能力等行为特征进行分析,提出了一种基于用户基本特征的行为概率预测模 型。基于微博上某一特定主题的博帖内容和用户博主信息的抓取数据,根据所定义的用户基 本特征提取规则,提取了用户活跃度和能力两种用户行为特征,基于用户特征的概率密度函 数对用户行为概率进行了建模,采用归一化的方法求解模型中的概率密度函数的参数,基于 抓取的数据集预测了用户的行为概率,验证了所提模型的有效性。 关键词:数据集采集;大数据分析;用户特征;用户行为预测 中图分类号:TP391 15 User character analysis and behavior prediction based on Weibo data FU Xujia, JIN Hao (Key Laboratory of Universal Wireless Communications, Ministry of Education, Beijing University of Posts and Telecommunications) Abstract: With the rapid development of social network, user behavior analysis and prediction has become a research hotspot. The research aims to analyze the behavior characters of Weibo users such as activity and ability. A behavior prediction model based on the user basic characters is proposed.Based on the collected Weibo data on user behavior related to information dissemination, a visual analysis is proposed on the user basic characters extracted from the dataset, including user activity and ability. A crawling program is conducted to collect data on the post content of a specific topic on Weibo and user blog information; Then, a basic extraction rule for user characters is presented, and the conditional probability density function based on user charactes is used to model user behavior probability; Finally, the normalized method is used to reconstruct the probability density function of the model and predict the user behavior probability. Key words: dataset collection; big data analysis; user character; user behavior prediction 20 25 30 0 引言 近年来,随着社会网络的快速发展,用户行为分析和预测成为研究的热点 [1]。以 YouTube、微博为代表的一系列社交网络拥有超大规模的用户群体、数以万计的用户交互、 35 和各种在网络中不断产生并快速传播的内容信息,这些特点不仅凸显出社交网络数据具有极 大的研究价值,同时也促使社交网络成为了用户行为分析获取海量数据的一种渠道[2]。 根据新浪微博数据中心发布的《2018 微博用户发展报告》[3]中的统计分析,截止到 2018 年底,微博的月活跃用户增至 4.62 亿。用户在微博平台上的日均文字发布量为 1.3 亿,日均 视频发布量为 150 万,日均图片发布量为 1.2 亿,涉及的内容主题多达 60 个方向。因此, 40 新浪微博中存在的海量用户行为数据可以用于用户特征提取和行为分析。 基于社交平台大数据的分析主要针对采集的社交网络节点的度数分布、特定主题信 作者简介:付旭佳(1994--),女,硕士研究生,主要研究方向:社会网络,信息传播,用户行为建模 通信联系人:靳浩,副教授,主要研究方向:未来网络架构、移动边缘计算和缓存优化、行为分析. E-mail: hjin@bupt.edu.cn - 1 -
中国科技论文在线 http://www.paper.edu.cn 息的转发人群统计、内容分析,以及针对用户基本特征的分析。基于社交网络数据的用户行 为预测就是基于用户行为的影响因素建模用户行为,基于用户行为建模预测用户的行为,因 为用户行为特征会影响用户的社交网络行为。社交网络用户行为的影响因素有很多,常见的 45 有用户自身的固有性格、知识储备、对话题的兴趣度、意图、以及与朋友的交互[4,5,6]等。目 前,针对用户行为预测的研究成果主要集中在信息传播中用户是否转发信息行为的预测 [4,5,7,8,9],针对用户的基本特征和其他用户行为的考虑较少。 本文基于微博数据对用户特征进行提取和分析,基于条件概率密度函数对用户行为概率 和用户基本特征之间的关系进行建模和参数估计,并给出了基于用户基本特征的行为模型对 50 用户行为概率的预测结果。 1 微博数据采集 本文选择将新浪微博上的内容数据作为实验数据源,通过基于 Python 的程序模拟登录 微博平台并爬取微博网页数据。参与微博每日热搜话题转发和评论的用户数量是海量的,出 于研究的可行性考虑,选择样本量较小的“名侦探柯南——零的执行者”这一话题传播作为本 55 文的数据集。 由于新浪微博具有用户隐私权限和内容显示权限,使得话题的搜索结果只能显示 50 页 的搜索量,而且无法获取用户的关注列表,这些问题阻碍了微博数据的爬取。为了解决这些 问题,本文选择初始显示的 50 页包含的 119 个用户作为一级用户,抓取一级用户发布的微 博内容、发布的时间、用户的微博主页链接、转发列表下的用户的转发内容、转发时间、转 60 发微博的主页链接、转发用户的微博主页链接、以及评论列表下的用户的评论内容、评论时 间、评论用户的微博主页链接。将一级用户转发列表和评论列表下的用户作为二级用户,跳 转至二级转发用户的转发微博的主页,再次获取其转发列表以及评论列表下的内容信息和用 户信息,直至用户微博下的转发列表和评论列表下的数量为 0 为止。所得到的数据根据用户 转发时是否添加自己的内容分为转发数据和转评数据,评论列表下得到的数据作为评论数 65 据。 所抓取的数据集包含用户的基本信息数据、转发和转评内容的信息数据、评论内容的信 息数据。其中,用户的基本信息数据包括用户昵称、用户关注数、粉丝数、微博总数、微博 等级、单月微博总数、注册微博时间、以及用户角色;用户的转发和转评内容的信息数据包 括用户转发的微博内容、转发微博的时间、个人主页链接、转发微博的博文链接、以及转发 70 列表下的转发用户的昵称、主页链接、微博内容、微博链接、转发时间;评论内容的信息数 据包括用户转发列表下的评论用户的昵称、评论内容、评论时间、个人主页链接、以及用户 评论下的评论用户的昵称、主页链接、评论内容、评论时间。 2 微博数据处理 2.1 数据清洗 75 在数据清理时主要依赖主键不重复原则,同时考虑重复主键下的时间是否相同。具体的 数据清洗原则如下: - 2 -
中国科技论文在线 1. 去除信息不完整的数据 http://www.paper.edu.cn 当用户的微博总数和注册时间的信息缺失时,无法计算用户的活跃度特征,因此,需要 去除该用户;当用户转发的微博内容缺失时,可能是用户在自己的主页中删除了本条博文, 80 不具备研究价值,因此需要去除该用户。 2. 去除信息重复的数据 抓取到的数据中存在多个用户 id 相同的信息,这是因为同一用户可能会在不同时刻多 次参与话题的传播,因此,当用户 id 重复时,需要观察重复数据的用户的转发时间是否相 同,若相同则去除该用户,否则保留该用户。 85 3. 去除孤立节点的数据 抓取到的数据中存在无社会连接的用户节点,这是因为数据集是话题传播时间范围内的 一部分,这样的节点在被研究的群体中无法参与信息的传播过程,所以需要去除该用户。 数据集清洗工作完成后,最终用于模型验证的数据集共计 10122 条数据,其中包含 1523 条评论数据、2562 条转发数据、以及 6037 条转评数据。选取 15 日 15:00 至 17 日 10:00 90 的信息传播数据作为测试集,其余时间段的信息传播数据作为训练集。因此,共有 5593 条 数据作为训练集,其中包含 788 条评论数据、1598 条转发数据、以及 3207 条转评数据。共 有 4529 条数据作为测试集,其中包含 735 条评论数据、964 条转发数据、以及 2830 条转评 数据。 2.2 网络度分布 95 根据数据集中的用户关注数和用户粉丝数可以绘制数据集入度和出度的度分布图,如图 1 和图 2 所示,横轴表示度数的实际值,纵轴表示度数为该指定值的用户的数量,需要注意 的是横轴和纵轴值均是以 10 为底的对数值。从图中可以看出,社交网络的度数服从幂律分 布并伴随长尾效应。根据度数分布公式 [10]计算得到用户出度的幂为 2.64。 100 图 1 用户入度分布图 Fig1. User Indegree Distribution - 3 - ()Pkk−=
中国科技论文在线 http://www.paper.edu.cn 图 2 用户出度分布图 Fig2. User Outdegree Distribution 105 2.3 用户基本特征提取 本文的用户活跃度定义为用户每天生成或转发的微博的数量,可以根据用户微博总数、 用户注册时间、用户话题参与时间计算得到,或是根据用户单月微博总数计算得到。用户 的 活跃度 表示为 ,其中, 是用户 的微博总数, 是用户 参与话题传播 的日期, 是用户 注册微博的日期。 110 用户的能力定义为用户对选定话题的认知度和兴趣度的线性组合结果,可以根据用户身 份定位、用户角色计算得到。用户 的能力 表示为 ,其 中, 是用户 身份定位的量化结果。当用户的身份定位与选定的话题密切相关时,如 含有“动漫博主”、“柯南超话”等标签的用户的身份定位量化为 0.9;当用户的身份定位与选 定的话题相关时,如含有“电视博主”、“音乐博主”等标签的用户的身份定位量化为 0.7;当 115 用户的身份定位与选定的话题无关或该字段的信息缺失时,用户的身份定位量化为 0.5。 是用户 兴趣的量化结果。当用户参与话题传播过程的次数为两次或两次以上时,表 明用户对选定话题具有较强的兴趣,其量化结果是区间 的随机值;当用户只参与过 一次话题传播过程时,则根据用户角色量化其兴趣值。当用户角色为评论者时,即 , 他的兴趣量化结果是区间 的随机值;当用户角色为转发者时,即 ,他的兴 120 趣量化结果是区间 的随机值;当用户角色为转评者时,即 ,他的兴趣量化 结果是区间 的随机值。参数 , 是调整参数,其值均设为 0.5。 3 基于用户基本特征的行为预测模型 3.1 用户基本特征建模 据条件概率密度函数的定义可得,已知用户基本特征的条件下用户角色的概率密度函数 125 表示为: - 4 - iacibaciipriintt=−binipitiritiiabiint12**abidentityerestiiiaa=+identityiiinterestii[0.9,1]1r=)0.25,0.52r=)[0.5,0.753r=)[0.75,0.91a2a
中国科技论文在线 http://www.paper.edu.cn (3-1) 其中,用户角色出现的概率密度函数表示为 ,其中向量 ,分别对应转发 者、转评者和评论者。每个用户角色下用户基本特征的概率密度函数表示为 ,其中 向量 , , 。 表示信息传播过程中用户特征的概率密度函 130 数。采用回归的方法可以计算 和 。假设用户的基本特征相互独立,因此, 可以写成, 根据对数据集的分析可知,用户的活跃度服从指数分布,能力服从高斯分布,因此可得, (3-2) , (3-3) 135 则用户行为概率可对 的小区间积分得到。 3.2 模型参数估计 根据数据集中用户的活跃度量化值和能力量化值可以采用回归的方法绘制用户基本特 征的分布图,如图 3 所示,横轴表示用户的活跃度以微博数/天为单位,纵轴表示用户的密 度。如图 4 所示,横轴表示用户的能力,纵轴表示用户的密度。可以看到,在本数据集中, 140 用户的活跃度服从指数分布,能力服从正态分布。表 1 列出了每种特征的回归参数。 145 图 3 活跃度分布 Fig3. Activity Distribution - 5 - (|)()(|)()fcrfrfrcfc=rrrrrr()frr123(,,)rrrr=r(|)fcrrr12(,)ccc=r1acc=2abc=()fcr(|)fcrrr()fcr(|)frcrr()()()()()()()(),||(|)|,,()()acabacabacabacabacabfrfrfrfrfrfrfff==rrrrrr()21acaacfae=()2324()2312abaaabfea−−=(|)frcrr
中国科技论文在线 http://www.paper.edu.cn 图 4 能力分布 Fig4. Ability Distribution 表 1 基于用户特征的行为模型中的参数 Tab 1. The parameters of user behavior model 活跃度回归参数 能力回归参数 a1:0.9385 a1:1.0592 a1:1.5826 a2:1.1058 a2:1.2332 a2:1.6461 a3: 0.5552 a3: 0.6991 a3: 0.5341 a4: 0.0411 a4: 0.0536 a4: 0.2097 150 行为 转发 转评 评论 3.3 基于用户基本特征行为模型对用户角色的预测 根据基于用户基本特征的行为模型对用户在社交网络中的信息传播的角色进行预测,表 155 2 给出了测试集中 10 位用户的行为预测概率和角色预测结果。 表 2 用户行为预测结果 Tab2. The results of user behavior prediction 用户评论行为预测概率 用户转发行为预测概率 用户转评行为预测概率 用户角色预测结果 0.176799 0.328235 0.494966 0.258245 0.288896 0.226543 0.070742 0.2036 0.324479 0.088639 0.470014 0.256457 0.275069 0.333578 0.411175 0.317852 0.281122 0.428308 0.616349 0.251808 0.293546 0.466686 0.377526 0.362282 0.611406 0.515277 0.247213 0.295012 0.278179 0.449997 转评者 转评者 转评者 转发者 转评者 转评者 转发者 转发者 评论者 转评者 根据测试集中用户在信息传播中的真实角色,与基于模型预测出的用户行为对应的用户 160 角色进行对比,结果表明,预测准确率为 93.9%。 - 6 -
中国科技论文在线 http://www.paper.edu.cn 4 结论 本文根据从微博上某一特定主题的博帖内容和用户博主信息的抓取数据,提取社交网络 用户角色、用户活跃度、用户能力等基本特征,针对用户行为概率和用户基本特征之间的关 系进行建模;对基于用户特征的行为模型进行参数估计,基于抓取的数据对用户行为概率进 165 行预测,结果表明,基于用户基本特征的行为模型能较为准确地预测用户在社交网络信息传 播中的行为。 [参考文献] (References) 170 175 180 185 [1] Xiangjie K, Kai M, et al. Human Interactive Behavior: A Bibliographic Review[J]. IEEE Access, 2019,7, 2611-4628. [2] 极光数据中心. 2019 年社交网络行业研究报告[R]. 2019. [3] 新浪微博数据中心. 2018 微博用户发展报告[OL].[2016].https://www.3mbang.com/p-3508308.html.2016. [4] Yang G, Yan C. Understangding Sequential User Behavior in Social Computing: To Answer or to Vote[J]. IEEE Transactions on network science and engineering, 2015, 2(3): 112-126. [5] Yunpeng X, Jiawei L, Yanbing L. A User Participation Behavior Prediction Model of Social Hotspots Based on Influence and Markov Random Field[J]. Networks&Security, 2017: 145-159. [6] Kardelen C, Mustafa O, et al. Event Estimation Accuracy of Social Sensing with Facebook for Social Internet of Vehicles[J]. IEEE Internet of Things Journal, 2018, 2327-4462. [7] Xi Z, Yuan S, Sihong X, et al. IAD: Interaction-Aware Diffusion Framework in Social Networks[J]. IEEE Transactions on knowledge and data engineering, 2019, 31(7): 1341-1354. [8] Zhiyong Z, Ranran S, et al. A Situational Analytic Method for User Behavior Pattern in Multimedia Social Networks[J]. IEEE Transactions on big data, 2016, 2332-7790. [9] Erez S, Viek K, et al. Sensing, Understangding and Shaping Social Behavior[J]. IEEE Transactions on computational social systems, 2014, 1(1): 22-34. [10] Romualdo Pastor-S, Piet Van M, et al. Epidemic process in complex networks[J]. Physics social physics, 2015, 1-62. - 7 -
分享到:
收藏