厦门大学学位论文原创性声明
本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。
本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中
以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规
范(试行)》。
另外,该学位论文为(
)课题(组)的研
究成果,获得(
)课题(组)经费或实验室的资助,
在(
)实验室完成。(请在以上括号内填写课题或课题组负责
人或实验室名称,未有此项声明内容的,可以不作特别声明。)
声明人(签名):
2016年(明乙P
˝
•
‰
˚
Irllllll
JJIlll l II
illf
Irlll H IIIJ
Y31 62823
厦门大学学位论文著作权使用声明
本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》
等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论
文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数
据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士
学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,
采用影印、缩印或者其它方式合理复制学位论文。
本学位论文属于:
(
)1.经厦门大学保密委员会审查核定的保密学位论文,于
年
月 日解密,解密后适用上述授权。
(√)2.不保密,适用上述授权。
(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是
已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会
审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学
位论文,均适用上述授权。)
签人明士尸
名
)
:
厶,
嘲m
加
1
6
年
˝
•
‰
˚
摘要
摘要
Web2.0时代,用户不仅仅是网络内容的消费者,也同时是互联网内容的生产
者。网络上产生了大量的用户评价信息,这些评价信息不仅能给消费者提供对商
品的参考,而且能给生产者反馈产品信息,了解自己产品的不足并加以改进。大
数据时代人工来做这些工作是不现实的。如何通过使用自然语言处理技术,从大
量数据中自动提取出评价对象以及找到用户对某种产品所持有的情感倾向是当
前研究的热点。
本文以某电商网站上的某款冰箱产品为研究代表,研究了基于评论信息的评
价对象抽取与情感倾向分析技术。本文主要内容和创新点如下:
1.利用网络爬虫技术与正则表达式方法完成了对某电商网站某款冰箱产品
的用户评论半结构化数据的抓取;
2.利用条件随机场模型,将评价对象识别问题转化为序列标注问题,将统计
与规则的方法结合起来,完成对评价对象进行识别的任务,最终的识别F值达到
了81.35%。
3.利用支持向量机模型,将TF-IDF以及情感词典融入到方法之中,完成了对
用户评论的情感倾向分析任务,最终的综合F值达到了71.80%。
4.基于以上的研究内容,利用JAVA语言完成了基于用户评价的商品评价对象
识别和用户情感分析的系统,对于一个特定的输入评论句子,可以通过机器学习
的方法输出想要得到的评价对象与评论的情感倾向。
关键词:产品情感倾向;分析系统;用户评价
˝
•
‰
˚
abstract
Abstract
With the further development of the Internet in China,more and more people
acquire information through the Internet.In the era of Web2.0,the user is not only the
consumer of network,but also the producer of theInternet。A large number of users'
evaluation information is produced on the Internet,it can not only provide references
of goods for consumers,but also offer feedback information of products to the
producers and SO as to make them understand the shortcomings of their products and
perform some improvements.However,it is not realistic in the big data aera with SO
much information and how to use the technology of natural language processing to
perform opinion targets extraction and the sentiment analysis are hotspots of current
researches.
In this paper,we use a certain refrigerator in an electricity supplier online as the
research object to study the technical analysis evaluation object extraction and
emotion information based on users comments.The main work and innovation are as
follows:
1.We use the web crawler technology and the regular expression to crawl the
user comments that to finish the semi—structured data capture target;
2.We translate the evaluation object recognition problem to the sequence
labeling problem through the conditions random field model,combining statistics and
rules,to complete the task of evaluation of the object recognition,the final F value
has reached to 81.35%.
3.We use the maximum entropy model and introduce the TF-IDF and the
sentiment dictionary into the method to completed the emotional tendency of the user
comment on the analysis task,the final comprehensive F-measure has reached to
71.8%.
4.Based on the above research,we use the Java language to complet the
evaluation object and comment system based on analysis of user evaluation of
commodity evaluation object recognition and emotion of the user,for a specific input
comment sentences users can get the emotional tendencies through machine learning
method.
Key words:Product Affective Tendency;Analysis System;User Comments
˝
•
‰
˚
目录
目录
第一章绪论………………………………………………………………………1
1.1引言…………….…………..….…..……………..1
1.2评价对象抽取概述……………………………………..1
1.2.1评价对象抽取研究现状……………………………….2
1.2.2评价对象抽取发展趋势……………………………….3
1.3情感倾向分析概述……………………………………..3
1.4系统应用前景…………………………………………5
1.5本文主要研究内容……………………………………..5
1.6论文框架…………………………………………….5
第二章相关技术介绍…………………………………………………….7
2.1商品评价…………………………………………….7
2.2评价对象抽取…………………………………………7
2.3用户评论情感分析……………………………………..8
2.4网络爬虫…………………………………………….9
2.5正则表达式…………………………………………..9
2.6评价标准……………………………………………1 0
2.7本章小结…………….……………………………..1 1
第三章系统需求分析………………………………………………….12
3.1系统建设要求…………………………………………1 3
3.2系统建设原则………………………………………..1 3
3.2.1先进性.…..………………....………………….13
3.2.2整体性…...……….….…….…………...…..…13
3.2.3平台性……….……….…………………………13
3.2.4开放性和可扩展性………………………………….14
3.3业务流程分析………………………………………..14
3.4系统功能性需求分析…………………………………..14
3。4。1 U工………………………………………………15
˝
•
‰
˚
目录
3.4.2用户评论信息导入…………………………………。15
3.4.3文本处理…..………………………….….…..…15
3.4.4调用动态链接库……………..………………....…15
3.4.5 目标文本输出……………………………………..15
3。4.6评价对象抽取………………………….……….…15
3.4.7情感倾向分析………………………….….………16
3.5系统非功能性需求要求分析……………………………..16
3.5.1可用性……….……….……………..….………16
3.5.2可靠性.….…………………………..………….16
3.5.3性能……………………….……….….……….16
3.5.4可支持性..……………………………………....16
3.6安全性分析………………………………………….16
3.7本章小结……………………………………………16
第四章系统设计…………………………………………………………17
4.1…模块部分…………………………………………1 7
4.2用户评论信息导入模块…………………………………1 7
4.3文本处理模块部分…………………………………….1 8
4.4调用动态链接库模块…………………………………..1 9
4.5目标文本输出模块…………………………………….19
4.6评价对象抽取模块…………………………………….20
4.6.1条件随机场模型….……….….……………………20
4.6.2马尔科夫性质………………..………....….…....20
4.6.3条件随机域的定义………………………………….2l
4.6.4条件随机域的势函数表示…………………………….2l
4.6.5条件随机域模型的参数估计…………………………..22
4.7情感倾向分析模块…………………………………….25
4.7.1支持向量机模型…….…….….…………………...25
4.7.2 SVM算法概述……………….…………………….25
4.7.3 SVM算法原理…….………….…………………...25
4.7.4广义最优分类平面………………………………….25
˝
•
‰
˚
目录
4.7.5核函数…………………….…………………….28
4.7.6 SVM算法的优势.…….………………………….…28
4.8本章小结……………………………………………29
第五章系统实现……………………………………………………………30
5.1 开发环境与程序运行环境……………………………….30
5.2系统主要模块部分实现…………………………………30
5.2.1 U工模块部分………………………………………30
5.2.2用户评论信息导入……………………………….…33
5.2.3文本处理…………..…………………………….34
5.2.4调用动态链接库……..…...………..…...……..…35
5.2.5 目标文本输出…..…..…………………………….38
5.2.6评价对象抽取……….…………………………….39
5.2.7情感倾向分析模块………………………………….45
5.3本章小结……………………………………………49
第六章系统测试……………………………………………………………51
6.1评价对象识别………………………………………..51
6.1.1评价对象识别结果.…..……………….……………51
6.1.2分析与改进…………………………………….…51
6.1.3评价对象频率统计………………………………….53
6.2情感倾向分析………………………………………..53
6.2.1情感倾向分析实验结果………………………………53
6.2.2情感倾向分析系统………………………………….54
6.2.3错误分析……………….………………………..56
6.3本章小结……………………………………………57
第七章总结与展望…………………………………………………………..58
7.1总结…………..…………………………………..58
7.2展望……………………………………………….59
V
˝
•
‰
˚
目录
参考文献…………………………………………………………………….61
致j射……………………………………………………………………………………….64
˝
•
‰
˚