5
10
15
20
25
30
35
40
中国科技论文在线
http://www.paper.edu.cn
基于深度学习的网络视频弹幕情感分类
王晓艳,刘晓鸿**
(北京邮电大学计算机学院,北京 100876)
摘要:近年来,视频网站发展越来越快,用户数量也越来越大,弹幕视频作为视频网站的一
个新兴分支,在日本和我国异军突起。弹幕评论数据包含评论文本及其对应的视频时间点信
息, 因此与传统的视频评论数据相比, 弹幕评论真正做到了即时反馈,弹幕数据能更准确地
反映出用户在观看视频时的即时情感和褒贬评价,这些情感和评价信息可以为其他用户在选
择视频时提供参考。同时打破了传统的传受关系,给予受众多维立体的表达空间和充分的表
达自由。本研究主要目标是利用深度学习网络 LSTM 提取网络视频弹幕中包含的情感信息,
对弹幕评论进行情感分类,通过构建 3 维情感词典,对原始语料进行训练集和测试集的构建。
同时本文还提出了一种基于浅层特征和深层特征融合的特征构建方法,提高了分类准确率。
关键词:深度学习;LSTM;特征融合;情感分类
中图分类号:TP311
Network Video Barrage Sentiment Classification Based on
Deep Learning
(School of Computer Science,Beijing University of Posts and Telecommunications, Beijing,
WANG Xiaoyan, LIU Xiaohong
100876)
Abstract: In recent years, video sites have developed faster and faster and the number of users is also
growing. Barrage video ,as a new branch of video sites has suddenly risen in Japan and China. The
barrage review data contains the comment text and its corresponding point-in-time information in the
video. Therefore, compared with the traditional video comment data, the barrage comment really makes
immediate feedback. The barrage data can reflect the user's instant emotion and evaluation when they
watch the video more accurately. These emotional and evaluation information can provide a reference for
other users watching the same video. While breaking the traditional transmission relationship, the
barrage data can give the audience multi-dimensional expression of space and full freedom of expression.
The main goal of this study is to use the deep learning network LSTM to extract the emotional
information contained in the barrage data of the videos, and carry out the emotional classification of the
curtain comment, and to construct the 3-dimensional emotional dictionary and the training of the original
corpus and the construction of the test set. At the same time, we propose a feature construction method
based on the fusion of shallow features and deep features, which improves the classification accuracy.
Keywords: Deep Learning; LSTM; Feature Fusion; Sentiment Classification
0 引言
弹幕语言是最有代表性和生命力的新兴网络语言,国内外对于其他方向的情感分析的研
究一直看重且有较丰富的研究成果,目前针对网络评论的情感分析的应用研究主要集中在微
博舆论和商品评论两个领域,但关于弹幕语言的研究还处于滞后状态,国内外学界目前尚未
有基于深度学习方法对弹幕情感分类进行的相关的研究,所以对弹幕评论的情感分析有很大
的必要性。弹幕平台使得网络视频用户可以在观看视频的同时发送、收看评论, 某些视频的
弹幕评论甚至包含比视频本身更多、更受欢迎的信息, 弹幕评论已经成为用户对视频进行二
次编辑的新方式。随着弹幕功能的流行和用户数的增多, 弹幕评论中的观点和情感将更具有
普遍性和参考性。本文目的在于对视频弹幕进行情感分析,由于传统的神经网络是无环结构,
作者简介:王晓艳(1992-),女,自然语言处理:
通信联系人:刘晓鸿(1971-),男,硕导,图像处理. E-mail: xiaohongliu@bupt.edu.cn
- 1 -
45
50
55
60
65
中国科技论文在线
http://www.paper.edu.cn
没有记忆功能,而循环神经网络的隐藏层之间有环状结构,它的目的就是用来处理序列数据,
LSTM 通过将 RNN 的隐藏层替换成长短期记忆单元,解决了梯度爆炸和长短期依赖问题。
所以本文采用了 LSTM 网络结构。本文还研究了特征融合对弹幕情感分类精度的影响。
1 相关研究
深度学习[1]的概念来自于对于人工神经网络的研究,它试图通过训练多隐藏层的网络结
构来自动学习数据的内在本质结构,进而提升分类预测的效果。最近几年,深度学习方法在
情感分类研究方面也取得了不错的进展。Socher 等针对电影评论的情感分类任务,提出一种
基于半监督的递归自编码(RAE)的方法。该方法首先为文本中的每个句子建立一个回归树,
并结合自编码对其进行训练学习得到文本的特征表达,再结合 softmax 分类器实现文本的情
感分类。2013 年,Socher 等又提出一种基于张量递归神经网络(RNTN)的方法,该方法主要
是通过引入张量概念来减少模型的参数数量,且其所有结点都使用同样的基于张量的组合函
数。实验表明,该方法能有效识别文本数据中的语义组合现象。Dong 等针对 Twitter 情感
分类任务,提出一种基于目标的自适应递归神经网络(Ada RNN)的方法,该方法考虑了文本
上下文之间的语义关系,最终提高了 Twitter 情感分类的准确率。Severyn 等则利用深层卷
积神经网络(DCNN)的方法实现 Twitter 的情感分类,并通过初始化参数的权值来改进训练
方式。国内对于深度学习的研究还在起步阶段,与国外较丰富的文献相比,国内的相关文献
较少,尤其是在情感分类领域。朱少杰引入递归自编码模型(RAE)来对微博文本进行情感分
类研究。Cao 等则通过将卷积神经网络(CNN)与支持向量机(SVM)相结合,提高模型对非线
性函数的刻画能力,从而提高文本情感分类的性能。
2 语料收集与情感词典构造
2.1 语料收集
数据语料收集,选取《神雕侠侣》第 1,11,24,27,31,44,47,52 这 8 集在哔哩哔哩网站[2]
的弹幕数据作为情感分析和可视化方法应用研究的实验数据集,数据采集时间为 2017 年 3
月 10 日。提取弹幕中的时间信息和评论文本。部分结果如下表所示:
时间
2023.47
2783.83
3587.83
2854.41
3040.66
1910.35
表 1 弹幕时间信息和评论文本(部分)
评论文本
主要是陈妍希笑的太猥琐了
小笼包走了,你们又想,是不是很犯贱
哈哈哈,好萌啊
好糟糕的台词,都不像看了真的是
坏人的就不能喝
小龙女比这个好看多了
2.2 文本预处理
70
因为本文所用的语料均来源于网络,句子不够规范,通常会带有一些颜文字等不必要的
信息,所以需要对语料进行预处理。本文使用 Python 作为我们的预处理工具,其中用到的
库有 Numpy 和 Pandas。Numpy 是高性能科学计算和数据分析的基础包,可以对数据进行快
- 2 -
中国科技论文在线
http://www.paper.edu.cn
速运算,而 pandas 是基于 Numpy 的一种工具,该工具为了解决数据分析任务而创建。同时
还要对语料进行分类标记,本文用 0~2 分别代表乐,好,恶 3 种情感。部分预处理结果如下:
75
序号
1
2
3
4
5
6
7
表 2 弹幕语料预处理结果
弹幕
我都忍不住笑出声来
半小时之内初恋,初吻然后失恋哈哈哈
编剧你一定写的好开森吧
陈翔明明很帅
我也觉得挺不错的
大美瞳看的好不爽
讨厌,我不要看虐心的恋爱
标记
0
0
0
1
1
2
2
2.3
情感词典的构造
情感词典[3]是情感分析领域的重要资源,词典中包含情感词所属类别,但由于弹幕文本
的特殊性,以及目前没有对 3 种情感进行分类的情感词典,所以本文采用 3 分类的标准构建
弹幕情感词典。情感维度分别是:乐,好,恶,情感实例是从实验数据集中随机抽取的 10000
条弹幕评论文本析取而来。首先利用结巴分词对弹幕评论文本进行分词处理,并在分词的基
础上为每个有效的分词结果进行词性标注,完成词典语料文本的预处理工作[4]。其次,从形
容词,动词和感叹词中筛选出具有明确情感表达的词或短语,按照 3 种情感进行分类,为了
确保情感词对弹幕情感的识别效果,暂不考虑情感类别不明确或情感强度较低的情感词。部
分弹幕多维情感词典如下表所示:
表 3 弹幕多维情感词典(部分)
情感类别
乐
好
恶
情感词
哈哈,笑,逗,开心,嘿嘿,高兴,爽
好看,漂亮,高能,帅,棒
贱,渣,作死,丑,瞎
2.4 情感词抽取
情感词又称评价词语、极性词, 指带有情感倾向性的词语。在句子级别的文本情感分析
过程中, 提取句子中的情感词是识别主观情感句的关键。情感词的抽取和判别往往是一体化
工作, 主要分为基于语料库和基于词典两种方法。
本文采用基于多维情感词典的方法对弹幕评论文本中的情感词进行抽取及判别。具体过
程包括: 参照情感词典对弹幕评论文本中的情感词进行匹配, 记录各视频弹幕评论中包含该
情感词的弹幕数, 即该情感词的词频; 根据情感词在多维情感词典中的类别, 将其替换为对应
的情感类别符号。
80
85
90
95
- 3 -
中国科技论文在线
http://www.paper.edu.cn
3 不同的特征构建方法对情感分类精度影响的研究
3.1 浅层学习特征构建
100
105
浅层学习特征[5]的选取是基于统计学习的,对于文本分类问题,一般所选的特征项都有
其特定的含义,并且要保证所选特征项有较好的区分能力。已有很多学者对文本分类问题中
的特征构建问题做了研究,经过对大量相关文献的阅读和微博语料的分析,本文采用向量空
间模型(VSM)表示文本,并选择了词(unigram)、词性(POS)、情感词典(dict)这三类浅层学习
特征。
3.2 深层学习特征构建
深层学习特征是相对浅层学习特征而言的,本文采用 word2vec 工具来提取文本的深层
学习特征,所获取的深层学习特征考虑了文本内部词与词之间的相关性,由此可以弥补浅层
学习特征的缺陷。
3.3 基于浅层和深层学习特征融合
110
为了考察不同学习特征对分类准确率的影响,本文设计了三个对比实验,分别采用浅层学习
特征,深层学习特征以及浅层学习特征与深层学习特征相融合。实验结果如下:
115
120
表 4 不同特征构建方法的情感极性分类准确率比较
浅层
深层
79.36%
浅层与深层融合
特征构建
准确率
从上表可知,特征融合后的分类准确率要明显高于仅使用浅层学习特征或仅使用深度
学习特征的情况,它弥补了两种特征各自的缺点,不仅考虑了文本表层的含义,而且还考
虑了文本深层的含义。所以基于浅层和深层学习的融合特征更能表征原始文本,进而提高
情感极性分类效果。
4 基于改进递归神经网络的情感分类方法
78.29%
81.32%
4.1 递归神经网络 RNN(Recurrent Neural Networks)
传统的神经网络一般是前馈神经网络,信息传递方向都是从输入层到隐藏层,再从隐
藏层到输出层,整个网络没有反馈,是有向无环的网络结构。它没有记忆功能,在处理
文本序列的时候,不会考虑将序列前面的信息用于当前信息的处理。但实际上,文本序列
的前后单词并非独立的,其内部存在特定的逻辑关系。而递归神经网络[6],也即循环神经网
络,与传统的神经网络不同,它带有环结构,具有一定的记忆功能,可以记住序列前面的
信息,用于处理序列的当前信息。所以递归神经网络更加适合用于文本序列的处理。递归神
经网络的一般结构如图 4.4 所示。
- 4 -
中国
国科技论
论文在线
线
http
://www.paper.e
edu.cn
125
130
0
135
5
0
140
5
5
145
藏层之间的节
点是可以相互
图 1 递归神经
图
网络结构
互连接的。
可见
见,递归神经
RNN 模型[7
到当前时刻隐
经网络的隐藏
7]中学习的参
隐藏层的权重
参数主要是三
重矩阵 w2,隐
减少参数空间
三个部分,输
入层到隐藏层
隐藏层到输出
出层的权重矩
样做有助于减
,在一定程度
度上保证了模
的训练分为前
前向传播和反
反向传播两个
个过程,前向传
传播按照时间
层的权重 w1
阵 w3。每个
模型的泛化能
1,上一时刻
个时刻的权重
能力。
间顺序依次计
隐藏
重参数
计算,
层到
是一
一样的,这样
RNN 模型的
现了特征信息
体现
对模
模型参数进行
取得了突破性
面取
N 个
大小
息的传递;而反
行优化。RNN
性进展。传统
反向传播将累
N 模型在自然
统语言模型一般
个词有关。如
如果当前信息
级变化,股一
小会成指数级
据,而 RNN 模
模型通过自带
的序列数据。
数据
度的
息依赖于很久
一般 N 只会选
带反馈神经元
累计误差从最
最后一个时刻
刻出阿迪回来
来,利用误差
差信息
功,特别是在
然语言处理领
般采用 N-gr
久之前的词,
选择 2 或者 3,
元,即隐藏层
领域非常成功
am 模型,假
则需要不断提
,这就使得 N
层之间的自连
假设当前词出
提高 N 的取
N-gram 模型
连接,理论上
在构建语言模
模型方
出现的概率只
与前
取值。考虑到
模型
型难以处理长
长序列
上能够处理任
任意长
4.2
基于 LST
TM 改进的
的递归神经网
网络模型
基于 LSTM
换成长短期记
TM 结构包含
tput Gate)这三
替换
LST
(Out
M [8]改进的递
记忆(LSTM)结
含一个记忆单
三个门,具体
结构,从而可
单元(Cell)和
体结构如图所
可以解决长时
遗忘门(Forg
所示。
种 RNN 的变
时依赖问题,
get Gate)、输
递归神经网络
络模型是一种
变体,该模型
型将原来的隐
隐藏层
以及梯度爆
输入门(Input
爆炸或消失问
t Gate)、输
题。
出门
LSTM 结构
构中的遗忘门
门用来决定是
史信息;输入
入门用来决定
定是否允许输
输入层
图 2 LSTM 网
是否保留历史
网络结构
- 5 -
中国科技论文在线
http://www.paper.edu.cn
的新信息进入;输出门用来决定是否将信息输出。三个门都采用 sigmoid 函数进行控制。
由图 5 可知,输入门的输入包含输入层的输出,上一时刻隐藏层的输出和记忆单元保
tb 分别如式(1)和(2)
留的信息这三个方面。用公式表示,t 时刻输入门的输入 at
所示:
t 和输出 t
150
=
a
t
t
I
=
1
i
w x
t
it
i
+
b
t
t
H
=
h
1
=
w b
t
ht h
−
1
+
C
=
1
c
−
1
w s
t
ct c
(式 1)
f a
(
t
t
)
(式 2)
cs −
其中 1t
表示 t-1 时刻记忆单元 c 所保留的信息。
遗忘门的输入和输出分别如式(3)和(4)所示:
155
=
a
t
φ
I
=
1
i
w x
t
φ
i
i
+
H
=
h
1
=
w b
t
φ
h
h
−
1
+
C
=
1
c
−
1
w s
t
φ
c
c
(式 3)
f a
(
)
t
φ
(式 4)
b
t
φ
t 时刻记忆单元的输入和保留信息分别如式(5)和(6)所示:
160
165
=
a
t
c
s
t
c
I
w x
t
ic
i
=
i
1
=
b s
t
t
φ
c
−
1
+
+
H
=
h
1
b g a
(
t
t
t
c
w b −
t
1
hc h
(式 5)
)
(式 6)
4.3 弹幕文本情感极性分类实验
验证基于 LSTM 改进的递归神经网络模型的情感极性分类效果。本实验采用的网络模
型是三层隐藏层结构,且每层包含 256 个激活单元,其中优化函数[9]使用 SGD 算法,目标
函数使用 categorical_crossentropy。本实验所采用的网络模型如下:
图 3 实验模型
为了进一步验证该算法的有效性,本文还设计了 RNN 和 LSTM 之间的对比实验。RNN
与基于 LSTM 改进的递归神经网络模型都采用三层隐藏结构,每层包含 256 个激活单元[10],
具体实验结果如下:
170
- 6 -
中国科技论文在线
http://www.paper.edu.cn
表 5 基于 LSTM 改进的递归神经网络模型的情感极性分类效果
分类模型
LSTM
RNN
准确率
85.24%
84.13%
验证集准确率
82.43%
81.75%
图 7 LSTM 模型实验结果
图 8 RNN 模型实验结果
与支持向量机相比,RNN 与基于 LSTM 改进的递归神经网络的分类准确率较高,说
明文本序列内部的关联性也是情感极性分类的一个重要依据。并且,基于 LSTM 改进的递
归神经网络的表现是以上所有模型中最好的,验证了基于 LSTM 改进的递归神经网络模型
在微博文本情感极性分类中的有效性。
- 7 -
175
180
中国科技论文在线
http://www.paper.edu.cn
5 结论
本文给出了一种基于 LSTM 改进的递归神经网络模型用于弹幕文本的情感分类。基于
LSTM 改进的递归神经网络模型是一种 RNN 的变体,该模型将原来的隐藏层替换成长短期
记忆(LSTM)模型,从而解决长时依赖问题,以及梯度爆炸或消失问题。通过实验证明基
于 LSTM 的分类模型要优于 RNN。还提出一种将浅层学习特征和深层学习特征进行融合的
特征构建方法,得到了较好的结果。浅层学习特征的选取是基于统计学习的,本文采用向量
空间模型(VSM)表示文本,并选择了词(unigram),词性(pos),情感词典(dict)这三
类浅层学习特征,采用 word2vec 工具来提取文本的深层学习特征,最后采用前期融合方式
将微博文本的浅层学习特征和深层学习特征进行融合并取得了较好的实验结果。
185
190
[参考文献] (References)
195
200
205
[1] 唐慧丰,谭松波,程学旗. 基于监督学习的中文情感分类技术比较研究.[J]. 中文信息学报,2007,21
(6):87-94.
[2] 陈松松,谭松波.弹幕视频--小众网民互动新形式[J]. 新闻世界,2014,23(02) :168-169.
[3] 朱海欢. 中文微博情感分类的研究[D]. 上海:华东师范大学,2014.
[4] 李实,叶强,李一军. 挖掘中文网络客户评论的产品特征及情感倾向[J]. 计算机应用研究, 2010,27
(8):3016-3019.
[5] Mullen T, Collier N. Sentiment analysis using support vector machines with diverse information sources[C].
Barcelona: Spain, 2004. 412-418.
[6] Graves A. Suoervised sequence labelling with recurrent neural networks[M]. Heidelberg: Springer, 2012.
[7] Go A, Huang L,Bhayani R.Twitter sentiment analysis[J]. Entropy, 2009, 24(6): 177-122.
[8] Han M,Xi J,Xu S. Prediction of chaotic time series based on the recurrent predictor neural network[J]. IEEE
Transactions on Signal Processing, 2004, 52(12): 3409-3416.
[9] Yang J, Wsng X. Improvement of information gain algorithm in text classification[J]. Journal of Computer
Science, 2007, 3(6): 430-435.
[10] Mesleh A M A. Chisquare feature extraction based SVMs Arabic Language Text Categorization system[J].
Journal of Computer Science, 2007, 3(6): 430-435.
- 8 -