中国科技论文在线
http://www.paper.edu.cn
微博虚假新闻鉴别模型的设计与实现
李少愚,徐鹏,朱永昊**
(北京邮电大学网络技术研究院,北京 100876)
摘要:本文主要针对当前微博虚假新闻泛滥的现状,对比国内外虚假新闻鉴别的同类型方法,
从基于文本内容的角度提出并实现了以深度学习技术为核心的基于文本内容的微博虚假新
闻鉴别模型,且取得了良好的效果。相较于同领域其他模型,该模型更加依赖文本结构及语
义,而非从发帖人、传播结构等维度辅助鉴别虚假新闻,这也为后续即将开发的虚假新闻平
台的易用性打下了基础。
关键词:计算机应用技术;深度学习;文本内容;虚假新闻
中图分类号:TP181
Design and implementation of micro-blog fake news
identification model
LI Shaoyu, XU Peng, ZHU Yonghao
(Institute of Network Technology, Beijing University of Posts and Telecommunications, Beijing
100876)
Abstract: This paper mainly focuses on the current situation of the proliferation of fake news in micro-
blog, compares the same type of fake news identification at home and abroad, and proposes and
implements the micro-blog fake news identification model based on text content from the perspective of
text content. And achieved good results. Compared with other models in the same field, the model relies
more on text structure and semantics than on the identification of fake news from the dimensions of
posters and communication structures. This also lays a foundation for the subsequent better usability of
the fake news platform to be developed.
Key words: Computer Application Technology; Deep learning; Text content; Fake news
5
10
15
20
25
0 引言
随着网络技术的发展,发微博已经成为了一种传播消息非常便捷的途径。微博的特点
30
是方便快捷无门槛,一个粉丝数量众多的大 V 账号,所发的微博可以轻松制造巨大的影响
力,所有名人,草根均跻身其间,记录入场生活,传播思想观点。微博的产生对新闻的传
播方式产生了颠覆性的改变,人们不再需要等待传统媒体的报道才能获取最新的新闻,热
点新闻一旦产生,会以极快的速度传播开来,这为我们的生活带来方便的同时,也导致了
许多虚假垃圾信息充斥其中。
35
虚假信息的产生主要有如下几个原因,第一点是媒体为了迎合大众的需要,同时提升
自己的影响力,可以制造话题,人们一般只对自己感兴趣的新闻产生兴趣,绝大多数被证
明为虚假新闻的都属于社会类新闻,而这类新闻通常会引起人们的关注,且因为事件与自
身没有利害关系,所以普通民众也会加速这种虚假新闻的传播,而且受限于一些民众的文
化水平和素质,他们对虚假新闻没有辨别能力,更加加速了虚假新闻的传播。第二点,新
作者简介:李少愚(1992-),男,深度学习
通信联系人:徐鹏(1977-),男,硕导,融合网络技术、云计算和大数据技术和应用、移动互联网技术
和应用. E-mail: xupeng0726@163.com
- 1 -
中国科技论文在线
http://www.paper.edu.cn
40
闻的造假成本很低,如果没有人刻意去验证事实的真伪,造假者只需作出一些看起来“靠
谱”的证据,就可以轻易的博的网民的信任。而且由于事件并不与切身相关,所以大多数人
也不会真的对信息的真实性进行验证。第三点是,制造话题可以获得超高的回报率,一旦
一个媒体制造轰动的新闻,在网民中产生了足够的影响力,便可以有超额的回报。。
虚假新闻会对社会生活产生很大的危害,主要体现在以下几点,第一点是危害社会,
45
虚假新闻不仅会浪费网民的时间和精力,而且会对网民的思想造成误导,浪费民众的时间
和精力,如果政府部门介入,也可能浪费国家的人力物力,有碍于整个社会的秩序。第二
点是影响形象,不论虚假新闻的主体是某个个人,或是某个组织机构,亦或是政府部门,
虚假新闻都会对他们的正常生产经营产生不良影响,对其企业形象或者政府部门形象造成
危害,丧失威信。第三点是造成侵权伤害,虚假新闻不仅会浪费人民的时间和精力,同时
50
也很有可能产生经济损失,甚至带来不必要的官司。
所以通过对虚假新闻进行真实性验证变得非常有必要。本论文通过获取大量的微博短
文本,再经由统计分析、机器学习、深度学习等手段,对其进行真实性验证。
本论文研究的目的是基于机器学习构建虚假新闻的鉴别模型,该模型能够对用户输入
的文本进行鉴别,并给出打分及判断依据,以此辅助用户鉴别该文本的真实性。
55
1 相关研究
微博的盛行,针对微博的研究也层出不穷,由于微博通常是约为一百字的文本信息,
所以对微博进行分析时,大多采用的是情感分析的方法。
国内社交平台的分析主要是针对新浪微博,经处理后提取的特征一般分为三大类:用
户特征、传播特征和文本特征。
60
用户特征,是针对发帖人建立的特征体系,主要内容包括用户是否经过大 V 认证、用
户性别、用户账号的注册地点和时间、用户的粉丝数、用户的关注数、用户发微博数、用
户种类,有了这些特征,可以依据用户特征建立用户诚信模型来判定所发微博是否为虚假
新闻。
传播特征,是针对转发人建立的特征体系,主要内容包括微博的传播结构[1],微博的
65
转发数、评论数,他人转发微博时的情感倾向、所使用的表情,以及转发微博的时间,通
过上述传播特征,可以构建基于传播路径的虚假新闻识别模型。
而文本特征,是针对短文本内容出发,从统计学的角度,提取文本的语义特征、词频
特征、结构特征等,但由于短文本篇幅限制,导致文本特征过于稀疏[2],故在最新的论文
中很少有人采用此类特征。
70
在上述三种特征的基础上,研究方法上大致分为机器学习和深度学习两种。对微博信
息进行分析时,由于微博的信息,基本可以视为短文本,所以对微博信息稍作处理后,采
用机器学习的方法进行分析,可以取得很好的分类效果。
国外的社交平台分析主要是针对 Twitter 文本数据展开的分析,分析方法也与国内的稍
- 2 -
中国科技论文在线
http://www.paper.edu.cn
有不同,其情感分析方法主要是基于机器学习的方法,目前有两类完全监督的机器学习方
75
法和半监督的机器学习方法。除此之外还有基于词典的情感分析方法[3]。
由以上的现状分析可以看出,目前针对社交平台的分析,一般停留在对文本数据的分
析,分析文本的情感趋向,但是一个文本的情感趋向只能体现发帖人的状态,并不能验证
发言的真实性,所以想继续验证多条微博组成的热点事件的真伪,就需要对算法进行完
善。
80
2 研究方法
国内社交平台的虚假新闻分析主要是针对新浪微博,经处理后提取的特征主要分为三
种:用户特征、传播特征、文本特征等。
现有的检测方法及不足概述如下:
a) 基于文本内容的文本分类,短文本太短导致特征不足以支撑机器学习算法做出准
85
确的预测,且不能检测不包含文本,只包含图片和视频的新闻。
b) 基于用户特征的文本分类[4-5],基于发帖人的创建时间,发帖数,粉丝数等信息构
建用户特征,以此为主要途径来判断该用户是否为谣言传播者,进而判定该用户
所发内容为谣言的可能性。但这种方法忽略了转发人的特征
c) 基于用户评论中提取的 temporal-linguistic 特征[6],缺点 1:虚假新闻早期传播
90
时,绝大多数人都倾向于转发原微博,所以时间语言特征较浅;缺点 2:用户评
论易被操控,水军会在很大程度上影响特征。
d) 基于传播路径/树提取的 temporal-structural 特征[7],缺点:同上缺点 1。
其中用户特征、传播特征等特征的核心都不是从短文本内容出发,而是试图依据外部
条件构建一个信任机制来判断该文本是否为虚假新闻,与本课题初衷相悖
95
而文本特征,是针对短文本内容出发,从统计学的角度,提取文本的语义特征、词频
特征、结构特征等,但由于短文本篇幅限制,导致文本特征过于稀疏,故在最新的论文中
很少有人采用此类特征。因此在基于文本内容的虚假新闻鉴别方向,需要寻求其他方法进
行辅助。
本文使用了 TextCNN[8]、TextRNN[9]两种模型在一定程度上提高了基于文本内容识别
100
虚假新闻的准确率,这在基于文本内容进行虚假新闻识别的层面上达到了一定的高度。
2.1 TextCNN
TextCNN 是利用卷积神经网络对文本进行分类的算法,由 YoonKim 在“Convolutional
Neural Networks for Sentence Classification”中提出.是 2014 年的算。卷积神经网络最初在图
像领域取得了巨大成功,其核心点在于可以捕捉局部相关性,具体到文本分类任务中可以
105
利用 CNN 来提取句子中类似 n-gram 的关键信息。
TextCNN 的详细过程原理图[10]见下:
- 3 -
中国科技论文在线
http://www.paper.edu.cn
图 1 TextCNN 原理图
Fig. 1 TextCNN schematic
第一层是图中最左边的 7 乘 5 的句子矩阵,每行是词向量,维度=5,这个可以类比为
110
图像中的原始像素点。然后经过有 filter_size=(2,3,4)的一维卷积层,每个 filter_size 有两个
输出 channel。第三层是一个 1-maxpooling 层,这样不同长度句子经过 pooling 层之后都能
变成定长的表示了,最后接一层全连接的 softmax 层,输出每个类别的概率。
根据此原理本文调整系统大致模型[11]如下:
115
2.2 TextRNN
图 2 TextCNN 模型
Fig. 2 TextCNN model
尽管 TextCNN 能够在很多任务里面能有不错的表现,但 CNN 有个最大问题是固定
filter_size 的视野,一方面无法建模更长的序列信息,另一方面 filter_size 的超参调节也很
繁琐。CNN 本质是做文本的特征表达工作,而自然语言处理中更常用的是递归神经网络,
120
能够更好的表达上下文信息。具体在文本分类任务中,Bi-directionalRNN(实际使用的是
双向 LSTM)从某种意义上可以理解为可以捕获变长且双向的的"n-gram"信息。
- 4 -
中国科技论文在线
TextRNN 系统模型[11]如下:
http://www.paper.edu.cn
图 3 TextRNN 模型
Fig. 3 TextRNN model
125
3 实验
本文所用文本数据均来自于新浪微博,其中虚假新闻取自新浪微博不实信息举报处理
中心(http://serviece.account.weibo.com/?type=5),真实新闻取自新浪新闻官方微博,两者
各取三万余条作为实验数据。该论文保留 10%的数据集来验证模型,并分别以 3:1 的比
例分别进行训练和测试。
- 5 -
中国科技论文在线
http://www.paper.edu.cn
130
3.1 模型流程
在将待检测文本作为模型输入时,尚需使用 word2vec 将其向量化方能使算法对文本进
行识别及处理。文本向量化后,将其作为模型输入,分别输入至不同算法模块进行进一步
的分析并输出文本是否为虚假新闻的概率值。操作人员便可在此基础上开展训练/检验工
作。
135
图 4 模型流程图
Fig. 4 The flow chart of the model
3.2 评价指标
通过实验得到实验结果如下:
- 6 -
中国科技论文在线
http://www.paper.edu.cn
140
两种方法的迭代轮次
图 5 TextCNN 迭代轮次为 4 轮
Fig. 5 TextCNN iteration round is 4 rounds
145
图 6 TextCNN 迭代轮次为 4 轮
Fig.6 TextCNN iteration round is 4 rounds
两种方法对于虚假新闻验证的准确率和误差如图所示:
图 7 TextCNN 的准确率(左)和误差(右)
Fig.7 TextCNN’s Accuracy (left) and Loss (right)
- 7 -
中国科技论文在线
http://www.paper.edu.cn
150
155
图 8 TextRNN 的准确率(左)和误差(右)
Fig.8 TextRNN’s Accuracy (left) and Loss (right)
表 1 TextCNN 测试结果
Tab. 1 TextCNN’s test result
precision
0.94
0.89
0.92
precision
0. 92
0. 92
0.92
recall
0.89
0.94
0.92
f1-score
support
0.91
0.92
0.92
3998
4000
7998
表 2 TextRNN 测试结果
Tab. 2 TextRNN’s test result
recall
0. 92
0. 92
0. 92
f1-score
support
0. 92
0. 92
0.92
3998
4000
7998
谣言
非谣言
Avg/Total
谣言
非谣言
Avg/Total
160
从以上图表我们可以看出在相同条件下,TextCNN 与 TextRNN 均有良好的准确率。
而在此过程中 TextRNN 相较于 TextCNN 迭代轮次较多,耗时较长。经分析,这是由于
TextRNN 本身结构导致。尽管 TextCNN 能够在很多任务里面能有不错的表现,但 CNN 有
个最大问题是固定 filter_size 的视野,一方面无法建模更长的序列信息,另一方面
filter_size 的超参调节也很繁琐。CNN 本质是做文本的特征表达工作,而自然语言处理中
165
更常用的是递归神经网络 RNN,能够更好的表达上下文信息。因此 TextRNN 结构要更复
杂,进而训练的时间会更长。
4 结论
本文针对传统文本处理方法造成的特征系数、语义丢失,以及等问题,对比现有基于
多种特征进行虚假新闻鉴别技术优劣,结合深度学习技术,从搭建一个开放式虚假新闻鉴
170
别平台角度出发,最终实现了基于文本内容进行虚假新闻识别的计算模块。论文的主要研
究内容及创新性工作如下:
1.基于文本内容进行虚假新闻鉴别
本文研究过程中发现,虚假新闻鉴别领域现有论文中,绝大多数都是基于用户特征或
- 8 -