logo资料库

基于SVM的中文微博情感分析的研究..pdf

第1页 / 共82页
第2页 / 共82页
第3页 / 共82页
第4页 / 共82页
第5页 / 共82页
第6页 / 共82页
第7页 / 共82页
第8页 / 共82页
资料共82页,剩余部分请下载后查看
基于 SVM 的中文微博 情感分析的研究 Sentiment Analysis of Chinese Micro Blog using SVM (申请清华大学工学硕士学位论文) 培 养 单 位 : 计算机科学与技术系 学 科 : 计 算 机 科 学 与 技 术 研 究 生 : 谢 丽 星 指 导 教 师 : 孙 茂 松 教 授 二○一一年四月
基 于 S V M 的 中 文 微 博 情 感 分 析 的 研 究 谢 丽 星
关于学位论文使用授权的说明 本人完全了解清华大学有关保留、使用学位论文的规定,即: 清华大学拥有在著作权法规定范围内学位论文的使用权,其中包 括:(1)已获学位的研究生必须按学校规定提交学位论文,学校可以 采用影印、缩印或其他复制手段保存研究生上交的学位论文;(2)为 教学和科研目的,学校可以将公开的学位论文作为资料在图书馆、资 料室等场所供校内师生阅读,或在校园网上供校内师生浏览部分内 容。 本人保证遵守上述规定。 (保密的论文在解密后遵守此规定) 作者签名: 导师签名: 日 期: 日 期:
摘 要 摘 要 微博自诞生以来,其应用价值迅速获得认可,并被用户所广泛接受。越来越 多的用户注册了微博账户,通过微博来分享消息,表达观点和情感。微博影响 的大幅增长,吸引了一大批学者对微博进行各种研究,而情感分析就是其中较 为重要的课题。情感分析主要是进行情感极性的判定,即判断一条微博消息表 达情感的正、负、中性。到目前为止这些研究主要是针对英文微博的,针对中 文微博的研究工作尚处于起步阶段。 中文微博的用户不仅数量多,而且增长速度快,中文微博消息每天更是在大 量更新,因此针对中文微博的情感分析变得尤为迫切和重要。本文通过从新浪 提供的 API 抓取数据,对微博的链接、表情、情感词及上下文等主题无关的特 征的有效性及多种分类方法进行了研究,最终选定 4 种特征共用及基于 SVM 的 方法对微博消息进行了情感分类。实验结果表明,该方法使用主题无关特征时 获得的最高准确率为 66.467%。此外,本文还就主题相关的特征对情感分类进行 了初步尝试,获得的最高准确率为 67.283%。 关键词:新浪微博 情感分析 SVM I
ABSTRACT ABSTRACT Since its birth, Micro blog’s application value has quickly gained recognition and been widely accepted. More and more people register to micro blog services and share their opinions and emotions through them. As a result of the rapidly increasing number of micro blog updates, researches on micro blog have attracted more and more attention. Sentiment analysis, which is one of the most important research topics, aims at mining the polarity of micro blog updates, namely classify the emotion expressed by the updates into positive, negative or neutral. However, all of these studies focus only on English micro blog, and so far research work on Chinese micro blog is still at the initial stage. Chinese micro blog users not only have large quantities, but also grow with a fast pace. Chinese micro blog updates updated a lot every day. Thus, sentiment analysis of Chinese micro blog seems particularly urgent and important. In this paper, we get the raw data through Sina’s API and study the effectiveness of the target-independent features, including links, emoticons, sentiment words and context. In the mean while, we compare the performance of various classification methods. Finally we find out combining the 4 features and SVM based method to classify the micro blog updates gains best performance with accuracy rate of 66.467%. In addition, this paper makes a preliminary attempt to take target-dependent features into consideration when doing sentiment classification and the best accuracy is 67.283%. Keywords:Sina Micro Blog, Sentiment Analysis, SVM II
目 录 目 录 第 1 章 引言 ...............................................................................................1 1.1 研究背景 ...........................................................................................1 1.2 发展现状 ...........................................................................................3 1.3 研究内容及挑战 ................................................................................5 1.3.1 新浪微博简介 ...............................................................................5 1.3.2 研究内容 .......................................................................................7 1.3.3 面临挑战 .......................................................................................8 1.4 本文的章节结构 ................................................................................9 第 2 章 情感分析综述 ............................................................................ 11 2.1 针对英文的情感分析 ....................................................................... 11 2.1.1 主题无关的情感分析 .................................................................. 11 2.1.2 主题相关的情感分析 .................................................................. 14 2.1.3 英文微博的情感分析 .................................................................. 15 2.2 针对中文的情感分析 ....................................................................... 19 2.3 本章小结 ......................................................................................... 21 第 3 章 中英文微博消息的区别 ............................................................. 22 3.1 链接统计 ......................................................................................... 23 3.2 标签统计 ......................................................................................... 23 3.3 表情符号统计 .................................................................................. 25 3.4 句子情况统计 .................................................................................. 27 3.5 情感极性统计 .................................................................................. 29 3.6 本章小结 ......................................................................................... 30 第 4 章 算法设计及实现 ......................................................................... 32 4.1 算法设计流程图 .............................................................................. 32 4.2 算法实现 ......................................................................................... 33 III
目 录 4.2.1 基于表情符号的规则方法 ........................................................... 33 4.2.2 基于情感词典的规则方法 ........................................................... 33 4.2.3 基于 SVM 的方法 ....................................................................... 34 (一)SVM 简介 .................................................................................. 34 (二)方法介绍 ................................................................................... 35 4.2.4 主题无关的特征抽取 .................................................................. 37 4.2.5 主题相关的特征抽取 .................................................................. 41 4.3 本章小结 ......................................................................................... 42 第 5 章 实验结果及相关分析 ................................................................. 43 5.1 实验数据、评测方法及指标 ........................................................... 43 5.2 三种方法比较 .................................................................................. 44 5.3 主题无关的相关实验 ....................................................................... 44 5.4 主题相关的相关实验 ....................................................................... 55 5.5 本章小结 ......................................................................................... 57 第 6 章 结论与展望 ................................................................................ 59 6.1 结论 ................................................................................................. 59 6.2 存在的问题 ...................................................................................... 59 6.3 下一步的工作 .................................................................................. 60 附录 ........................................................................................................... 62 插图索引...................................................................................................... I 表格索引..................................................................................................... II 参考文献................................................................................................... IV 致 谢 ...................................................................................................... VI 声 明 ..................................................................................................... VII 个人简历、在学期间发表的学术论文与研究成果 ................................. VIII IV
分享到:
收藏