logo资料库

基于微博数据挖掘的突发事件舆情演化分析--以艾尔玛飓风为例.pdf

第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
资料共14页,剩余部分请下载后查看
中国科技论文在线 http://www.paper.edu.cn 基于微博数据挖掘的突发事件舆情演化分 析--以艾尔玛飓风为例 魏洁 1,张凌 1,2** (1. 武汉科技大学管理学院 武汉 430081; 2. 武汉科技大学管理学院服务科学与工程研究中心 武汉 430081) 摘要:[目的/意义] 探索突发事件中不同情感微博对信息传播量的影响,进而发现舆情传播 的特点和规律,为舆情分析与决策提供依据。[方法/过程]以特定舆情事件的事实文本数 据为来源,以细粒度情绪和生命周期理论为指导,设计研究流程,最终实现以微博数据挖掘 的突发事件舆情演化分析。[结果/结论]微博舆情演化分析方法能够揭示面向特定事件的微博 在突发事件中所对应的微博细粒度情绪、生命周期各阶段的传播性强弱,以及剖析各阶段对 应的细粒度情绪演化规律,研判出分布在文字当中有关联性的、代表性的、重要的微博情绪。 关键词:舆情演化;突发事件;生命周期;内容分析;信息传播 中图分类号:G20 5 10 15 Evolution Analysis of Emergency Public Opinion Based on Microblog Data Mining--A Case Study of Hurricane Irma (1. Schoolof Management, Wuhan University of Science and Technology, Wuhan 430080,China; 20 2. Center for Service Science and Engineering, Wuhan University of Science and Technology, Wei Jie1, Zhang Ling1,2 25 30 Wuhan 430080, China) Abstract: [Objective/Significance] Exploring the impact of different emotional Weibo on the amount of information dissemination in social media and to discover the characteristics and laws of publicopinion transmission, which can provide the basis for publicopinion analysis and decision making. [Method/Process] This study is based on the text data of a true public opinion event. Guided by fine-grained emotions and life cycle theory, the research process is designed to realize the evolution analysis of public opinion in emergencies based on Weibo data mining. [Results/Conclusions] The Weibo public opinion evolution analysis method can reveal the fine-grained emotions of Weibo corresponding to specific events in the emergencies, the propagation strength of each stage of the life cycle, and the fine-grained emotion evolution law corresponding to each stage. The study judged the representative, important and important Weibo emotions distributed in the text. Key words: public opinion evolution; emergencies; life cycle; content analysis; Information Dissemination 35 0 引言 随着移动互联网技术的蓬勃发展和移动终端应用的普及,以微博为代表的在线社交媒体 迅速时兴起来,成为突发事件舆情传播的重要平台。微博是一个基于网络用户关系为中心, 以转发、关注、点赞和评论为联系纽带的信息传播、分享及获取的平台。而与传统传播平台 作者简介:魏洁(1993-),女,主要研究方向:信息与知识管理 通信联系人:张凌,女,1981 年生,博士,副教授,硕士生导师,研究方向:知识与信息管理,网络舆情. E-mail: 2698002675@qq.com - 1 -
中国科技论文在线 http://www.paper.edu.cn 相比,微博中的信息和情感的交流与传播具有更加活跃、影响范围更大的特点[1]。另外,由 40 于微博使用的低门槛 、低成本、即时、简洁的信息发布方式使人们更热衷于将它作为个人 情绪传播的首选通道,当情绪不断促进着网民们大规模的情绪共振与话语协同时,加剧了社 会情绪的失衡,而负面情绪的不断堆积即群体极化现象,是网络事件与社会冲突发生的温床。 例如 2017 年 9 月 6 号,加勒比发生了大规模飓风“艾尔玛”,随着受到破坏的规模日益扩 大,已经将加勒比海小岛绿洲变成涝地,而在它的下一站美国佛罗里达州 67 个区迅速进入 45 紧急状态。该突发事件已在微博上产生了数十万条数据,事件中出现的情绪,在舆情发展阶 段的不同阶段具有不同的特点,如果不能进行合适的阶段划分,对各阶段情绪内容,特点进行 有效分析,因为信息不对称造成的恐慌和谣言不断发酵,一定程度上影响了社会稳定。因此, 在自然灾害等突发事件的紧急情况下,识别在线社交媒体的中情绪,并分析网络演化各阶段 不同情绪的传播差异具有很强的现实意义。 50 及时判断突发事件中的情绪倾向,对突发事件进行预测与调控,能够帮助组织判断公众 的信息需求并及时采取有效的措施进行疏导,从而避免发生情绪极化现象,影响社会秩序的 稳定。鉴于此,本研究拟构建基于微博数据挖掘的的突发事件舆情演化分析方法,揭示突发 事件的微博舆情传播演化机理,为突发事件的管理部门在舆情判断和风险预测方面提供科学 合理的决策依据。 55 1 相关研究 1.1 情感对信息传播的影响 近年来,学者们从网络结构[2]、节点属性[3]、内容[4-6]等几方面研究了影响信息传播的影响因 素,在内容方面的研究主要集中在情感的极性分析,包括正向和负向情感以及正、中、负 3 种情感态度。例如,Hansen 等人对大约 560,000 条推文分析情绪和转推之间的关系显示,关 60 于新闻的推文,相比正面推文,负面推文能够引发更高的生理唤醒,具有更高的传播性,而 非新闻推文则相反[7]。Stieglitz[8]分析了大约 170,000 条与德国政治选举相关的推文,发现反 映唤醒度强弱的情感的“总量”(正负情感的极性绝对值之和)越高,转发量越多,转发速度 越快。Tsugawa 分析了大约 400 百万条推文,并显示负面和正面推文的唤醒度高于中性推文, 会触发更高的转发量[9]。陈显龙[10]等以 2015 年的十大热点微博为例分析微博传播特性和情 65 感特性发现微博舆情情感值的绝对值越大,传播特性的指标越高,微博舆情的正向或负向能 量峰值越大。张凌[11]等通过对电影“Mother!”探讨社交网络中影响信息传播的内在因素发现 负面强传播性信息比正面和中立强传播信息具有更显著的低情感强度和高认知强度特点。表 1 对目前的主要研究结论进行了模型概括和对比分析。然而,欲想充分表达人类复杂的内心 世界,基于二分类的情感分析是远远不够的,它不仅忽视了用户所表达的细微情绪变化,同 70 时也难以较全面地涵盖用户的心理状态,这些都加速了对基于多分类的细粒度情绪分析的需 求。 现有的情感分类方法主要可分为两大类:基于机器学习的文本情感分析和基于词典和语 义的文本情感分析。基于机器学习的情感分析中,Pang 等[12]分别采用朴素贝叶斯、支持向 量机以及最大熵学习分类器对电影评论的情感进行分类研究,最后证明支持向量机的分类效 75 果最优。随着大数据时代的到来,半监督的学习方法可以充分利用少量人工标注的数据训练 模型,而后预测大量未标注的数据,省去大量人工标注语料的过程。Huang 等[13]提出一种半 监督学习的情绪分类方法,采用少量人工选取的标签和情感符(emotion)来自动标注微博情 - 2 -
中国科技论文在线 http://www.paper.edu.cn 绪,其准确率可达 75.2%以上。在基于词典和语义的文本情感倾向分析中, 潘明慧[14]构建了 微博表情符词典 EmoDic 和中文情绪词典 SixDic,将 EmoDic 、SixDic 用来进行六类情绪识 80 别,实验正确率达到 61.7%。蒋盛益等[15]以 HowNet 词典和人工筛选来探索一种面向微博的 社会情绪词典构建方法,并将其应用于社会公共事件的情绪分析中,其平均准确率为 76.9%。 表 1.情感分析结论模型对比 作者 研究内容 结论模型 Hansen[7]等人 新闻/非新闻 Stieglitz[8]等人 德国政治选举 Tsugawa[9]等人 无限定推文 陈显龙[10]等人 十大热点微博 张凌[11]等人 电影 1.2 微博舆情演化分析 85 用户在微博、社区和论坛中的社交活动往往都是现实生活对网络社会的映射,并且用户 的情绪与其所关注的话题通常具有较强的连续性。而突发事件的演化过程往往具有一定的生 命周期,因此如若分析某起事件中民众情绪随舆情演化生命周期的动态变化可以较为准确地 捕捉舆情信息随生命周期传播的演化进程。在网络舆情的研究中,一般将舆情事件从发生到 衰退的整个经历过程定义为信息传播的生命周期。国外学者对生命周期比较著名的划分包括, 90 1976 年 Turner[16]根据灾难的发展进行了模型的描述,将灾难的演化进程分为六个阶段:开 始点、潜伏期、急促期、爆发期、救援期、社会调整期;1986 年美国学者 Steven 将生命周 期理论引入到危机管理中,并提出危机传播四阶段理论:潜在期、爆发期、蔓延期和解决期 [17]。此后,国内学者相关的划分包括李志宏等[18]将突发性公共危机的信息传播划分成五个阶 - 3 -
中国科技论文在线 http://www.paper.edu.cn 段: 前兆、爆发、蔓延、缓解和终止阶段; 马建华和陈安提出突发事件演化的四阶段过程: 95 发生、发展、演化和终结[19];贾亚敏等结合城市突发事件的特点及具体案例将舆情传播生命 周期划分为起始阶段、爆发阶段、衰退阶段、平息阶段[20]。王晰巍和安璐[21,22]等以埃博拉事 件为例分析了舆情传播信息的传播模式,以及主题演化,但都并未揭示相关情绪的演化。本 文结合突发事件发生的特点,并在前人研究的基础上,拟采用贾亚敏[20]等的划分方式将飓风 事件分为六个阶段:起始阶段、爆发阶段、第一次衰退阶段、第二次增长阶段、第二次衰退 100 阶段、恢复阶段。 综上,目前关于微博舆情的分析多集中于文本的情感倾向性与信息传播之间的关系,多 情感分类提供了细分的情感类别,能够完成更深层次的舆情分析任务,例如情感异常检测、 以情感为基础的新闻建议,针对不同的集聚情绪采取不同的策略进行安抚、疏导或管控等应 用[23]。另外,情感具有动态性,网民在短期内的情感波动往往和突发事件中某一主题的走向 105 紧密相关,导致情感的变化可能只存在较短的时间,如果不考虑演化的时间维度,则无法对 波动的情绪进行监测,进而无法有效判断舆情的演化动态。因此,本研究拟构建一种基于舆 情演化生命周期的突发事件微博舆情演化分析的框架,采用 SVM 半监督学习的情感分类方 法将推特平台收集的艾尔玛飓风的评论文本数据分为 joy、anger、sadness、fear、disgust 五 种情绪类型,结合网络舆情演化的生命周期,统计不同阶段五种情绪类型的转发量来分析不 110 同情绪下的网络传播结构特点,并利用负二项回归分析来研究情绪和舆情演化生命周期与微 博舆情传播之间的关系。同时构建突发事件中情绪与舆情演化生命周期的误差条形图,以可 视化的方式展现不同情绪在不同时期的动态演化过程。 2 数据收集与分析方法 2.1 数据收集与预处理 115 本研究围绕 2017 年 9 月 6 日加勒比“艾尔玛”飓风事件,以“Hurricane Irma ”为关键词, 利用 NodeXL 在推特上爬取了 2017 年 9 月 6 至 2017 年 9 月 20 的数据,数据爬取以天为间 隔。通过 NodeXL 进行数据获取及数据存储格式如图 1 所示。对收集的微博数据去除非英 文、重复以及与事件无关数据后得到 238769 条,去掉转发量少于 1 后为 183148 条。同时在 数据预处理部分,对剩余的数据过滤掉特殊符号,如“//@xxx”、“#xxx”、超链接等不包含实 120 际话意义与情感信息的元素。对句子的特殊符号做正规化处理,本文利用 CRF 算法[24] (conditional random field algorithm)对文本进行分词并对相关表情做进一步处理,利用 CHI 进行特征提取,用基于词频进行权值的计算,最终将文本向量化。 图 1.NodeXL 数据抽取操作及存储格式 - 4 -
中国科技论文在线 http://www.paper.edu.cn 125 2.2 分析流程 本研究以“艾尔玛”飓风事件为例,基于微博数据以挖掘突发事件的舆情演化。首先利 用 SVM 半监督的情绪分类方法对筛选过后的评论文本集进行多情绪分类。然后根据贾亚敏 等[23]的划分方式对舆情演化周期进行划分。最后以每条推文的转发量为被解释变量,微博情 绪和舆情演化生命周期为解释变量分析微博情绪与舆情传播、生命周期与舆情传播之间的关 130 系,并考虑微博情绪和舆情演化生命周期的交互与信息传播之间的关系,最终得到舆情演化 生命周期不同阶段下微博情绪的变化趋势,生成情绪演化图。其流程图如图 2 所示 图 2.基于情绪与生命周期的舆情传播分析流程 2.3 微博情绪分类 135 微博情感分析指利用微博文本进行情感的自动分类。在对大规模的微博短文本进行分类 时,存在着耗时长和一致性差等问题。而半监督情感分类方法在小规模的情感标注样本的基 础上,通过设置分类器的情感贡献权重来得到分类的情感置信度,选出置信度高的样本来扩 大训练集,更新训练模型,从而提高情感分类的效率和准确性。支持向量机(Support Vector Machines,简称 SVM)是 Vapnik[25]在统计学理论的基础上再基于结构风险最小化理论提出 140 的,SVM 常被用于二分类的监督式学习的方法,研究表明 SVM 在情绪多分类上也有很好 的分类效果[26-28]。因此本文采用 SVM 的半监督学习方法对微博文本进行情绪分类。采用 Python 语言可以方便的对英语文本数据进行处理。首先将评论文本进行分词处理,并依据 停用词表去除停用词,避免无关词汇的干扰。抽取其中部分数据进行人工细粒度情绪标注, 再将执行标注样本作为训练集,编写 SVM 分类器进行训练。基于 SVM 的半监督情感分类 145 算法的基本思想就是利用少量的已标注的样本进行训练 SVM 分类器,利用训练的分类器 来对未标注的文本进行分类预测,挑选出距离 SVM 分类超平面比较远的文本向量加入到 已有标签的训练集中,标签就是分类器预测的结果,用获得的新的训练集进一步训练分类器, 一直迭代,直到达到训练的阈值,其算法步骤如表 2 所示。 表 2.基于 SVM 半监督的情绪分类算法步骤 输入:人工标注数据集 L 和未标注数据集 U 输出:更新后的标注数据集 L 初始化:样本到 SVM 分类超平面的距离 - 5 -
中国科技论文在线 http://www.paper.edu.cn 1)利用训练集 L 训练 SVM 分类器 C 2)运用分类器 C 对未标注的样本进行分类预测,可以得到已经分类好的情绪集合 Si(i=0,1,2,3,4), 其中 i 是情绪的类别标签。 3)先后分别从集合 Si 中找出距离 SVM 分类超平面比较远的 K 个文本 M 加入到已有标签的集合 L 中, 标签就是分类器预测的结果。L=L∪M 4)如果没有达到训练阈值,则使用新的训练集 L 对分类器进行训练,获得新的分类器 C,一直迭代, 直到达到训练的阈值;否则就终止迭代。 150 2.3.1 特征提取 文本特征是指文本中能区分其他不同文本的特征项,微博文本特征提取要考虑到其短小、 快速、碎片化的特点。本文将采用 CHI 统计方法来提取能显著表示文本类别的词汇。CHI 统 计方法是一种比较好的和广泛应用的特征选择方法。对于每个特征项 W 与类别 P 的开方值 X2 的计算方式为 155 在上式中,N 表示文本的总篇数,A 表示特征项 w 在类别 p 中出现的次数,B 表示的 是特征项 w 不在类别 p 中出现的次数,C 表示为类型 P 时,特征项 w 不出现的次数。D 表示特征项 w 和类型 p 都不出现的次数。利用上式计算每个特征项的 X2,然后根据开方值 的大小来排序,选择前面值较大的数个词汇作为特征项。 160 2.3.2 特征权值的计算 特征权值表示文本特征在其文本的权重,对分类器的分类起着关键的作用,本文使用基 于词频权重(TF)来计算特征权值。TF(Term Frequency)表示特征词 w 在文档D中出现 的频率其常用计算方法如下: ,其中 表示文档 的单词总数 ( ) 165 2.4 微博传播周期阶段划分 网络舆情事件的演进方式主要有 3 种: 单峰型、双峰型以及多峰型演进方式,其中单峰 型最主要的特征表现在只有一次舆情高峰,而双峰型与多峰型则分别有 2 个和多个高峰期 [23]。在生命周期理论的划分中,通常学者们会根据具体的应用场景划分为 3 个或 4 个阶段, 在此,为了更细致的分析情绪随生命周期的演化,本研究根据事件的单峰、双峰和多峰来划 170 分舆情传播的生命周期。具体见图 3,其中 N 为峰值的数量,N=1 时为单峰事件,N=2 时为 双峰事件,N>2 时为多峰事件 图 3.舆情演化周期划分 - 6 -
中国科技论文在线 http://www.paper.edu.cn 3 突发事件的情绪与舆情演化生命周期的传播分析 175 3.1 情绪分类结果 本研究参考 Plutchik 的多维度情绪模型对微博文本进行情绪分类(joy(高兴)、anger (愤怒)、sadness(悲伤)、fear(恐惧)、disgust(厌恶)、anticipation(期望)、trust(信任)、 surprise(惊讶))[29],在分类过程中,因为 anticipation、trust、surprise 情绪类别的数量较少, 导 致 数 据 不 平 衡 而 致 使 准 确 率 不 高 , 故 将 其 去 掉 , 最 终 得 到 180 “joy”“anger”“sadness”“fear”“disgust”5 类情绪。计算结果如表 3 所示,其平均准率达到了 83.8%, 实验证明 SVM 半监督的分类方法运用于微博情绪分类效果较好。 研究发现,在对每个情绪类别推文的平均转发量进行统计时,含 joy 情绪微博与其他负 面情感微博一样,其转发量也比较大,而本研究是在自然灾害事件下,故引起了本项目研究 人员的好奇,选取了部分该情绪的转发量排名靠前的推文发现这些内容有些是一些偏幽默的 185 话语,具有调侃性质,如表 4 所示。Nahon[30]认为社交媒体的信息传播内容有如下类别:幽 默、新奇、生产质量、情感影响、共鸣和兴趣,而 Bakshy[31]等人也发现更有趣的内容更容 易被传播。因此,根据研究结果可得出,幽默也可作为促进信息内容传播的元素之一。 表 3.基于 SVM 的半监督模型的微博情绪分类结果 情绪类别 准确率 召回率 F-score joy anger sadness fear disgust 平均准确率 0.83 0.83 0.86 0.86 0.81 0.84 0.89 0.80 0.82 0.80 0.838 0.84 0.86 0.83 0.84 0.82 190 表 4. joy 情绪转发量排名靠前的部分推文 Tweet Hurricane, a large yacht was washed ashore and hit the wooden portico . "At least I got a good boat." We have Thick Rihanna, Thick Beyonce and now Thickye West. 2017#Irma is officially the year of getting thick. Autumn season, eat more vegetables, exercise more, keep your arms and legs away, hurricane 8 can't blow down, can't blow. Hurricane is the God of commander. He is intoxicated and confused by his own viciousness. It becomes a whirlwind. Hurricane Irma, you're doing amazing sweetie. Sentiment 转发量 joy 58489 joy 47722 195 joy 32006 joy joy 25662 24368 200 3.2 舆情演化生命周期的划分结果 按照贾亚敏[20]等对网络舆情事件的双峰演进的划分方式结果如图 4 所示,事件热度主要 维持在 2017 年 9 月 10-2017 年 9 月 20 日,而 2017 年 9 月 6 至 2017 年 9 月 9 日数据量很少, 因此将艾尔玛飓风事件分为六个阶段:起始阶段(9 月 10 日-9 月 11)、爆发阶段(9 月 12)、 205 第一次衰退阶段(9 月 13-9 月 14)、第二次增长阶段(9 月 15)、第二次衰退阶段(9 月 16)、 恢复阶段(9 月 17-9 月 20)。 - 7 -
中国科技论文在线 http://www.paper.edu.cn 图 4.飓风事件微博传播演化 3.3 艾尔玛飓风事件舆情演化分析 210 本文按照 Stieglitz [8]在分析政务微博传播量与情感之间的关系中的研究方法,以每条推 文的转发次数作为信息传播量的度量指标,去除转发量小于 1 的推文。Naveed[32]等人通过 6000 万条推特分析了影响信息传播的影响因素,结果表明情绪化词语、URL、hashtags 和 followers 是影响微博转发性的主要因素。特别是,一个用户的粉丝数量部分代表了同同质性 的程度,这意味着用户的粉丝可能会有类似的兴趣,他们更可能会转发该用户的内容[32]。因 215 此本研究拟将影响信息传播的几个代表性的内容因素(URL、hashtags 和 followers)作为控 制变量,并将时间维度考虑在内,利用这些解释变量检验情绪特征以及演化生命周期对信息 传播的影响。研究中的主要影响因素如表 5 所示。表 6 显示了每个样本自变量的相关矩阵, 结果表明本样本数据不存在多重共线性。推文描述统计数据如表 6 所示,由于转发量的标准 差远大于其均值,需要对过度离散做调整分析,因此本研究借助 stata15.0 进行负二项回归 220 来分析情绪和舆情演化生命周期对信息传播的影响,回归模型如(3)(4)所示。另外,利用双 因素方差分析来检验情绪与舆情演化生命周期对信息传播是否存在交互效。 变量 转发量 URL hashtag follower anger sadness fear disgust 第一阶段 第二阶段 第三阶段 第四阶段 第五阶段 表 5.回归分析使用的变量 描述 原创推文被转发的次数 推文是否包含 URL 的分类变量 文中包含标签的个数 粉丝的数量 分类变量,表示推文是怒的 分类变量,表示推文是悲的 分类变量,表示推文是惧的 分类变量,表示推文是恶的 起始阶段 爆发阶段 第一次衰退阶段 第二次增长阶段 第二次衰退阶段 变量 最小值 最大值 均值 标准偏差 1 表 6.描述性统计与相关性分析 符号 2 1 2 转发量 hashtag 1 0 167240 323.431 3037.138 1.000 16 0.972 1.470 0.062 1.000 - 8 - 3 4
分享到:
收藏