分类号
学校代码 10487
学号 M200972519
密级
硕士学位论文
硕士学位论文
硕士学位论文
硕士学位论文
基于情感词典的中文微博情感
倾向分析研究
学位申请人:陈 晓 东
学 科 专 业 :计算机应用技术
指 导 教 师 :李玉华 副教授
答 辩 日 期 :2012 年 1 月 12 日
Fulfillment ofofofof thethethethe Requirements
Fulfillment
Submitted inininin FuFuFuFullllllll Fulfillment
Thesis
AAAA Thesis
Submitted
Requirements
Thesis
Submitted
Fulfillment
Requirements
Thesis Submitted
Requirements
Degree ofofofof thethethethe MasterMasterMasterMaster ofofofof Engineering
Degree
forforforfor thethethethe Degree
Engineering
Degree
Engineering
Engineering
based
Sentiment DDDDictionary
Research onononon Sentiment
ictionary
Sentiment
Research
Emotional
Sentiment
Research
ictionary
based
Emotional
based Emotional
ictionary based
Research
Emotional
Chinese
Tendency
Analysis
Analysis ofofofof Chinese
MicroBlog
Tendency
Analysis
Chinese
MicroBlog
Tendency
Tendency Analysis
MicroBlog
Chinese MicroBlog
Candidate :::: CCCChenhenhenhen Xiaodong
Candidate
Xiaodong
Candidate
Xiaodong
Candidate
Xiaodong
MajorMajorMajorMajor
Application
:::: Computer
Computer
Technology
Computer
Application
Technology
Application Technology
Computer Application
Technology
Prof. LiLiLiLi Yuhua
Prof.
Supervisor :::: Prof.
Supervisor
Yuhua
Supervisor
Prof.
Yuhua
Supervisor
Yuhua
Science &&&& Technology
Science
University ofofofof Science
University
Huazhong
Technology
Huazhong
University
Science
Technology
Huazhong University
Huazhong
Technology
430074,
WuhanWuhanWuhanWuhan 430074,
P.R.China
430074,
P.R.China
430074, P.R.China
P.R.China
JanJanJanJanuaryuaryuaryuary,,,, 2012
201220122012
独创性声明
独创性声明
独创性声明
独创性声明
本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研
究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或
集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在
文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。
学位论文作者签名:
日期: 年 月 日
学位论文版权使用授权书
学位论文版权使用授权书
学位论文版权使用授权书
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权
保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。
本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检
索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
本论文属于
保密□ ,在_____年解密后适用本授权书。
不保密□。
(请在以上方框内打“√”)
学位论文作者签名:
日期: 年 月 日
指导教师签名:
日期: 年 月 日
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
摘 要
近年来微博的出现,极大丰富了人们的生活。其简短写作,便捷发布,实时交
互的特点深受大众欢迎。越来越多的用户乐于在微博平台上分享信息,交流观点和
情感。通过对这些信息展开情感分析,可以实现微博营销、品牌宣传、客户关系管
理、舆情监控等。当前微博情感分析研究大多是针对于英文微博的,而中文微博的
情感分析研究还处于起步阶段。
情感分析主要是判别微博文本的情感倾向性,即属于正面、负面、中性。根据
中文微博的自身特点,在传统文本情感分析的已有基础上,展开对微博的情感倾向
分析。首先,对当前已有情感词汇资源加以总结和整理,并运用了扩展的情感倾向
点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI)对新浪微
博语料进行实验,自动获得领域情感词,构建了一个面向中文微博的情感词典。其
次,基于中文微博表达多元化的特点,对微博文本进行了相应预处理,并采用微博
消息文本中的情感词作为特征选择方法,对微博消息文本中存在的否定词、程度副
词、感叹句、反问句、以及微博表情符号等进行相应分析处理。最后对整条微博消
息作加权计算获得其情感倾向性,实现了一个面向中文微博的情感倾向分类系统。
实验数据选用数据堂的新浪微博语料,对来自科技、体育、娱乐三个领域的微
博消息进行人工标注后,实验验证了该方法的可行性。实验结果显示:该方法获得
的最高准确率为 74.2%,平均准确率为 70.5%,取得了较好的效果,对中文微博的情
感倾向分析进行了初步探索。
关键词:微博,情感词典,情感倾向,权值计算,自然语言理解
I
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
Abstract
In recent years, microblog has greatly enriched people’s life. Due to its brief writing,
convenient publishing and real-time interacting, microblog becomes very popular. More
and more people are actively sharing information with others and expressing their
opinions and feelings on microblog. Analyzing emotion hidden in these information can
benefit microblog marketing, branding,
and
monitoring public opinions. Currently, most of the emotional analysis is on English
microblog, while Chinese microblog emotional analysis is still at the initial stage.
relationship management
customer
Emotional analysis is to identify the emotional tendencies of the microblog messages,
that is to classify users’ emotions into positive, negative and neutral. By learning from the
traditional text emotional analysis, we analyze the emotional tendencies of microblog
based on the characteristics of Chinese microblog. Firstly, summarize and organize the
existing resources. Then, use the extended Semantic Orientation Pointwise Mutual
Information (SO-PMI) to perform experiments on the Sina microblog and build an
emotional dictionary for Chinese microblog. Based on the diversity of expression forms of
Chinese microblog, we conduct some preprocessing on the microblog text. We use the
emotional words in the microblog text as feature selection method, and process the
negative words, adverbs of degree, exclamatory sentence,
rhetorical question, and
emotional signs in the microblog accordingly. And finally obtain the emotional tendencies
by computing the weighted sum of various aspects of microblog messages. A system of
emotional tendencies analysis for Chinese microblog is implemented in this paper.
The experimental data is selected from Sina microblog corpus in datatang. We
manually annotate the microblog messages in domains of science and technology, sports,
entertainment. Experimental results show that the method can achieve the accuracy up to
74.2%, and the average accuracy is 70.5%. The experiment validates the effectiveness of
our method, by which we have performed a preliminary exploration of the emotional
tendencies analysis of Chinese microblog in this paper.
II
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
words:::: MicroBlog, Sentiment dictionary, Emotional tendency, Weight calculating
words
KeyKeyKeyKey words
words
Natural language understanding
III
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
目目目目 录录录录
摘 要............................................................................................................... I
Abstract............................................................................................................ II
1 绪论
1.1 研究背景.................................................................................................(1)
1.2 研究的目的与意义.................................................................................(2)
1.3 国内外研究现状.....................................................................................(3)
1.4 论文的主要研究内容.............................................................................(7)
1.5 论文的组织结构.....................................................................................(7)
2 相关介绍与理论概述
2.1 微博相关概述.........................................................................................(9)
2.2 文本预处理技术...................................................................................(12)
2.3 特征选择...............................................................................................(15)
2.4 本章小结...............................................................................................(18)
3 微博情感词典的构建
3.1 情感词典相关介绍...............................................................................(19)
3.2 基础情感词典.......................................................................................(21)
3.3 网络情感词典.......................................................................................(22)
IV
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
华 中 科 技 大 学 硕 士 学 位 论 文
3.4 微博领域情感词典...............................................................................(23)
3.5 本章总结...............................................................................................(28)
4 微博情感倾向分析
4.1 情感倾向的含义...................................................................................(29)
4.2 有情感词的微博情感分析...................................................................(30)
4.3 无情感词的微博情感分析...................................................................(33)
4.4 情感倾向加权计算...............................................................................(35)
4.5 本章小结...............................................................................................(36)
5 实验结果与相关分析
5.1 实验数据介绍.......................................................................................(38)
5.2 实验性能评估指标...............................................................................(39)
5.3 实验设计与结果分析...........................................................................(40)
5.4 本章小结...............................................................................................(43)
6 总结与展望
6.1 全文总结...............................................................................................(44)
6.2 进一步的研究方向...............................................................................(45)
致 谢......................................................................................................(46)
参考文献......................................................................................................(47)
V