logo资料库

基于情感词典的中文微博情感倾向分析研究.pdf

第1页 / 共59页
第2页 / 共59页
第3页 / 共59页
第4页 / 共59页
第5页 / 共59页
第6页 / 共59页
第7页 / 共59页
第8页 / 共59页
资料共59页,剩余部分请下载后查看
摘要
Abstract
目录
1绪论
1.1研究背景
1.2研究的目的与意义
1.3国内外研究现状
1.3.1文本情感分析研究现状
1.3.2微博情感分析研究现状
1.4论文的主要研究内容
1.5论文的组织结构
2相关介绍与理论概述
2.1微博相关概述
2.1.1微博定义及发展
2.1.2微博文本中的符号
2.1.3中文微博研究中的困难
2.2文本预处理技术
2.2.1中文分词
2.2.2去除停用词
2.3特征选择
2.3.1常用的特征选择算法
2.3.2特征选择方法优缺点比较
2.3.3微博的特征选择方法
2.4本章小结
3微博情感词典的构建
3.1情感词典相关介绍
3.1.1情感相关术语说明
3.1.2情感词典的重要性
3.1.3微博情感词典的组成
3.2基础情感词典
3.2.1知网
3.2.2台湾大学NTUSD
3.2.3其它情感词典
3.3网络情感词典
3.4微博领域情感词典
3.4.1领域情感词典构建重要性
3.4.2SO-PMI算法
3.4.3SO-PMI算法扩展
3.4.4领域情感词典的生成
3.5本章总结
4微博情感倾向分析
4.1情感倾向的含义
4.2有情感词的微博情感分析
4.2.1情感词的获取
4.2.2否定词的分析
4.2.3程度副词的分析
4.2.4感叹句的分析
4.3无情感词的微博情感分析
4.3.1表情符号的分析
4.3.2疑问句的分析
4.4情感倾向加权计算
4.5本章小结
5实验结果与相关分析
5.1实验数据介绍
5.2实验性能评估指标
5.3实验设计与结果分析
5.4本章小结
6总结与展望
6.1全文总结
6.2进一步的研究方向
致谢
参考文献
分类号 学校代码 10487 学号 M200972519 密级 硕士学位论文 硕士学位论文 硕士学位论文 硕士学位论文 基于情感词典的中文微博情感 倾向分析研究 学位申请人:陈 晓 东 学 科 专 业 :计算机应用技术 指 导 教 师 :李玉华 副教授 答 辩 日 期 :2012 年 1 月 12 日
Fulfillment ofofofof thethethethe Requirements Fulfillment Submitted inininin FuFuFuFullllllll Fulfillment Thesis AAAA Thesis Submitted Requirements Thesis Submitted Fulfillment Requirements Thesis Submitted Requirements Degree ofofofof thethethethe MasterMasterMasterMaster ofofofof Engineering Degree forforforfor thethethethe Degree Engineering Degree Engineering Engineering based Sentiment DDDDictionary Research onononon Sentiment ictionary Sentiment Research Emotional Sentiment Research ictionary based Emotional based Emotional ictionary based Research Emotional Chinese Tendency Analysis Analysis ofofofof Chinese MicroBlog Tendency Analysis Chinese MicroBlog Tendency Tendency Analysis MicroBlog Chinese MicroBlog Candidate :::: CCCChenhenhenhen Xiaodong Candidate Xiaodong Candidate Xiaodong Candidate Xiaodong MajorMajorMajorMajor Application :::: Computer Computer Technology Computer Application Technology Application Technology Computer Application Technology Prof. LiLiLiLi Yuhua Prof. Supervisor :::: Prof. Supervisor Yuhua Supervisor Prof. Yuhua Supervisor Yuhua Science &&&& Technology Science University ofofofof Science University Huazhong Technology Huazhong University Science Technology Huazhong University Huazhong Technology 430074, WuhanWuhanWuhanWuhan 430074, P.R.China 430074, P.R.China 430074, P.R.China P.R.China JanJanJanJanuaryuaryuaryuary,,,, 2012 201220122012
独创性声明 独创性声明 独创性声明 独创性声明 本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除文中已经标明引用的内容外,本论文不包含任何其他个人或 集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体,均已在 文中以明确方式标明。本人完全意识到,本声明的法律结果由本人承担。 学位论文作者签名: 日期: 年 月 日 学位论文版权使用授权书 学位论文版权使用授权书 学位论文版权使用授权书 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,即:学校有权 保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。 本人授权华中科技大学可以将本学位论文的全部或部分内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。 本论文属于 保密□ ,在_____年解密后适用本授权书。 不保密□。 (请在以上方框内打“√”) 学位论文作者签名: 日期: 年 月 日 指导教师签名: 日期: 年 月 日
华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 摘 要 近年来微博的出现,极大丰富了人们的生活。其简短写作,便捷发布,实时交 互的特点深受大众欢迎。越来越多的用户乐于在微博平台上分享信息,交流观点和 情感。通过对这些信息展开情感分析,可以实现微博营销、品牌宣传、客户关系管 理、舆情监控等。当前微博情感分析研究大多是针对于英文微博的,而中文微博的 情感分析研究还处于起步阶段。 情感分析主要是判别微博文本的情感倾向性,即属于正面、负面、中性。根据 中文微博的自身特点,在传统文本情感分析的已有基础上,展开对微博的情感倾向 分析。首先,对当前已有情感词汇资源加以总结和整理,并运用了扩展的情感倾向 点互信息算法(Semantic Orientation Pointwise Mutual Information, SO-PMI)对新浪微 博语料进行实验,自动获得领域情感词,构建了一个面向中文微博的情感词典。其 次,基于中文微博表达多元化的特点,对微博文本进行了相应预处理,并采用微博 消息文本中的情感词作为特征选择方法,对微博消息文本中存在的否定词、程度副 词、感叹句、反问句、以及微博表情符号等进行相应分析处理。最后对整条微博消 息作加权计算获得其情感倾向性,实现了一个面向中文微博的情感倾向分类系统。 实验数据选用数据堂的新浪微博语料,对来自科技、体育、娱乐三个领域的微 博消息进行人工标注后,实验验证了该方法的可行性。实验结果显示:该方法获得 的最高准确率为 74.2%,平均准确率为 70.5%,取得了较好的效果,对中文微博的情 感倾向分析进行了初步探索。 关键词:微博,情感词典,情感倾向,权值计算,自然语言理解 I
华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 Abstract In recent years, microblog has greatly enriched people’s life. Due to its brief writing, convenient publishing and real-time interacting, microblog becomes very popular. More and more people are actively sharing information with others and expressing their opinions and feelings on microblog. Analyzing emotion hidden in these information can benefit microblog marketing, branding, and monitoring public opinions. Currently, most of the emotional analysis is on English microblog, while Chinese microblog emotional analysis is still at the initial stage. relationship management customer Emotional analysis is to identify the emotional tendencies of the microblog messages, that is to classify users’ emotions into positive, negative and neutral. By learning from the traditional text emotional analysis, we analyze the emotional tendencies of microblog based on the characteristics of Chinese microblog. Firstly, summarize and organize the existing resources. Then, use the extended Semantic Orientation Pointwise Mutual Information (SO-PMI) to perform experiments on the Sina microblog and build an emotional dictionary for Chinese microblog. Based on the diversity of expression forms of Chinese microblog, we conduct some preprocessing on the microblog text. We use the emotional words in the microblog text as feature selection method, and process the negative words, adverbs of degree, exclamatory sentence, rhetorical question, and emotional signs in the microblog accordingly. And finally obtain the emotional tendencies by computing the weighted sum of various aspects of microblog messages. A system of emotional tendencies analysis for Chinese microblog is implemented in this paper. The experimental data is selected from Sina microblog corpus in datatang. We manually annotate the microblog messages in domains of science and technology, sports, entertainment. Experimental results show that the method can achieve the accuracy up to 74.2%, and the average accuracy is 70.5%. The experiment validates the effectiveness of our method, by which we have performed a preliminary exploration of the emotional tendencies analysis of Chinese microblog in this paper. II
华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 words:::: MicroBlog, Sentiment dictionary, Emotional tendency, Weight calculating words KeyKeyKeyKey words words Natural language understanding III
华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 目目目目 录录录录 摘 要............................................................................................................... I Abstract............................................................................................................ II 1 绪论 1.1 研究背景.................................................................................................(1) 1.2 研究的目的与意义.................................................................................(2) 1.3 国内外研究现状.....................................................................................(3) 1.4 论文的主要研究内容.............................................................................(7) 1.5 论文的组织结构.....................................................................................(7) 2 相关介绍与理论概述 2.1 微博相关概述.........................................................................................(9) 2.2 文本预处理技术...................................................................................(12) 2.3 特征选择...............................................................................................(15) 2.4 本章小结...............................................................................................(18) 3 微博情感词典的构建 3.1 情感词典相关介绍...............................................................................(19) 3.2 基础情感词典.......................................................................................(21) 3.3 网络情感词典.......................................................................................(22) IV
华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 华 中 科 技 大 学 硕 士 学 位 论 文 3.4 微博领域情感词典...............................................................................(23) 3.5 本章总结...............................................................................................(28) 4 微博情感倾向分析 4.1 情感倾向的含义...................................................................................(29) 4.2 有情感词的微博情感分析...................................................................(30) 4.3 无情感词的微博情感分析...................................................................(33) 4.4 情感倾向加权计算...............................................................................(35) 4.5 本章小结...............................................................................................(36) 5 实验结果与相关分析 5.1 实验数据介绍.......................................................................................(38) 5.2 实验性能评估指标...............................................................................(39) 5.3 实验设计与结果分析...........................................................................(40) 5.4 本章小结...............................................................................................(43) 6 总结与展望 6.1 全文总结...............................................................................................(44) 6.2 进一步的研究方向...............................................................................(45) 致 谢......................................................................................................(46) 参考文献......................................................................................................(47) V
分享到:
收藏