logo资料库

基于网络用户评论的评分预测模型研究_.pdf

第1页 / 共11页
第2页 / 共11页
第3页 / 共11页
第4页 / 共11页
第5页 / 共11页
第6页 / 共11页
第7页 / 共11页
第8页 / 共11页
资料共11页,剩余部分请下载后查看
会议专辑 基于网络用户评论的评分预测模型研究* 张红丽 刘济郢 杨斯楠 徐 健 (中山大学资讯管理学院 广州 510006) 摘要: 【目的】通过网络用户评论, 为评论网站构建有效的评分预测机制。【方法】提出基于网络用户评论的评 分预测模型, 该模型包括 4 个模块: 网络用户评论获取模块、预测变量获取模块、预测分析模块以及预测结果评 价模块。抓取 30 部不同类型的电影评论数据, 27 部用于构建模型, 3 部用于检验模型。【结果】使用逐步回归方 法筛选出变量: 参与评分人数、参与评论人数、想要观看人数和电影正向评论情感均值, 构建评分预测模型。使 用 3 部电影验证, 预测评分与 IMDb 评分相差最大值为 0.0644, 最小值为 0.0227。【局限】在数据样本量、情感 特征提取精度、模型普适性验证等方面有待进一步提升。【结论】该模型能够依据用户评论对评分进行有效预测, 在网络水军探测方面也能发挥一定的作用。 关键词: 评分预测 情感分析 回归分析 电影评分 网络水军探测 分类号: G350 1 引 言 随着 Web2.0 的发展, 每一位网络用户都可以通过 互联网发表个人对产品的观点并为产品打分, 专门的 产品评分网站也应运而生。同时, 越来越多的消费者 将评分网站上的用户评分作为消费决策的重要参考。 但由于信息发布的门槛降低, 评分网站上的评分易受 到非正常手段干扰, 面对评分网站上纷繁的产品宣传 和产品评价, 如何从网络中识别真实的产品评价及评 分成为网民们关注的问题。如今评分网站在引导消费 上起到极其关键的作用, 但是其存在两个问题使得产 品的真实性大打折扣: 一是消费者评论具有混杂性, 二是用户恶意刷分行为影响了产品的真实评分。普通 用户只能通过网络评分辨别产品的优劣, 而一个不具 有公信力的评分很大程度上会误导用户判断。另外, 网络评分在产品发布之后一段时间才趋于稳定, 存在 滞后性的特点。 针对上述评分网站的问题, 本文通过选取网络用 户评论的相关指标, 提出一种基于网络用户评论的评 分预测模型。由于网络评论中包含用户对产品的意见 和情感倾向, 因此, 基于用户的评论内容, 利用情感 分析技术分析评论文本的情感倾向性, 将情感指标作 为辅助预测指标, 以提高模型的预测效果。对于个人, 可以通过评分预测模型得到更客观公正的评分, 为消 费决策提供建议; 对于商家, 可以收到最真实的使用 反馈, 以改进产品质量; 对于网站管理方, 可以用来 探测评分异常值存在, 及时发现“网络水军”[1], 维护 网站正常运营。 2 相关研究 目前对网络用户评论的相关研究已经取得了较多 的成果, 主要研究方向集中在评论的有用性、评论对 产品销量的影响和评论文本挖掘三个方面。 (1) 评论的有用性是指用户产生的能够帮助潜在 消费者购买决策的产品评价[2]。只有消费者认为有用 的评价才具有实际价值, 研究者主要从评论内容和评 论用户的角度对评论的有用性进行探索。Chen 等[3]抓 取亚马逊网站用户评论数据, 提出网络用户评论的有 通讯作者: 徐健, ORCID: 0000-0003-4886-4708, E-mail: issxj@mail.sysu.edu.cn。 *本文系国家社会科学基金项目“用户评论情感分析及其在竞争情报服务中的应用研究”(项目编号: 11CTQ022)和广东省科技专项“基于 内容的科技文献分析服务平台”(项目编号: 2016B030303003)的研究成果之一。 48 数据分析与知识发现
总第 8 期 2017 年 第 8 期 用性与评论用户、评论效用和评论获支持数存在较强 的关联性。吴江等[4]从评论信息的相关性、及时性、 客观性、真实性 4 个维度出发, 构建评论有用性影响 因素模型。Kuan 等[5]利用亚马逊评论数据探索出评论 语句的长度、可读性程度、情感极性、评论用户的信 誉对评论的有用性具有影响。 (2) 评论对产品销量的影响涉及的产品领域众多, 主要包括电子产品类、音像图书类、旅游酒店类、电 影类等。王文君等[6]通过对在线手机评论研究发现, 评 论长度、评论时效性、评论数量、负面评论和产品价 格对在线手机销量有显著性影响。龚诗阳等[7]分析了 当当网上的图书评论, 研究显示评论数量对图书销量 有正向影响。评论数量对销量的影响程度随着图书上 线的时间变长而减弱。Torres 等[8]研究美国 178 家酒店 在 TripAdvisor 上的评分排名与在线评论数量对酒店 在线交易产生的影响, 分析发现评论数量和评分排名 对酒店在线预订交易具有积极影响。Chintagunta 等[9] 测量了评论效用、评论数量对电影票房的影响。 (3) 评论文本挖掘主要包括产品特征挖掘和用户 情感的判断。对评论中产品特征的挖掘是从产品自身 的角度进行分析, Liu 等[10]首先提出应用关联规则分 类方法提取英文评论中的产品特征。杜思奇等[11]引入 汉语组块分析, 结合支持向量机、Apriori 算法获取频 繁项集、TF-IDF 停用词过滤实现评论文本中产品特征 的提取。用户情感的判断主要通过挖掘用户网络评价 的情感倾向分析用户对评价对象的褒贬态度。单晓红 等[12]采用情感分析方法对苹果手机用户的网络评论进 行分析, 为用户购买决策提供依据。吴维芳等[13]利用 Word2Vec 对 TripAdvisor 酒店评论进行特征抽取和降 维, 结合情感分析技术, 构建计量经济模型分析酒店 特征评价与用户满意度的关系。 另外, 在评分预测方面, 马春平等[14]提出一种基 于词向量的方法挖掘用户评论信息, 并结合协同过滤 的方法设计新的推荐算法, 该算法有效地提高了推荐 系统的评分预测性能。Kamath 等[15]利用 MG- LDA[16] 算法对评论进行主题分析生成主题词表, 利用主题词 表将用户评论表示成特征向量, 利用机器学习算法建 模进行评分预测。马松岳等[17]对豆瓣电影的用户评价 进行情感分析得到综合情绪值, 发现评论评价的综合 情绪值与打分评价相关性较高, 根据评论评价构建预 测打分模型。但该模型变量只涉及综合情绪值和评论 总数, 没有考虑评论的其他因素。 综上所述, 目前虽然有很多关于网络用户评论的 研究, 但研究主要集中于评论效用和挖掘技术方面。 在评分预测方面, 结合情感分析, 并用于评论分数预 测方面的相关研究较少。本文在网络用户评论相关变 量基础上, 引入情感特征因素作为辅助预测变量, 提 出基于网络用户评论的评分预测模型, 旨在利用情感 分析和回归分析手段实现对产品评分网站客观评分的 有效预测。 3 基于网络用户评论的评分预测模型设计 本文提出一种基于网络用户评论的评分预测模 型, 预测评分网站中产品的客观评分。借助情感分析 的手段, 提取用户语料中的情感特征, 使之成为辅助 预测指标, 并寻找行业内最客观公正的评分作为预测 对比变量。同时结合相关联的预测指标以及情感分析 指标作为自变量, 通过回归分析构建评分预测模型。 该模型主要由 4 个部分构成: 网络用户评论获取模块、 预测变量获取模块、预测分析模块以及预测结果评价 模块, 如图 1 所示。 (1) 网络用户评论获取模块主要包括网络评论来 源的筛选以及网络评论数据的获取。质量高的数据源 有助于模型的有效建立, 选定具有代表性的网站作为 网络评论数据源[18]; 选取行业客观评分数据来源; 采 集所需数据并存储在数据库中。 (2) 预测变量获取模块主要包括网络用户评论相 关预测指标和情感特征指标。获取网络用户评论相关 预测指标, 对数量级大的变量进行对数缩放操作, 防 止数据的量级差距导致模型失真。情感特征指标提取 包括数据清洗、中文分词、去停用词以及情感量化[19]。 对网络用语化且非结构化的网络用户评论进行数据清 洗, 剔除评论中的网络链接、表情等非规范信息, 只保 留文本内容; 进行文本分词和去停用词处理, 减少情 感量化的计算量; 通过情感值计算的方式对语料数据 进行量化。 (3) 预测分析模块主要针对预测变量, 采用多元 线性回归分析方法构建预测模型[20], 并对模型进行结 果分析。若 P 值不显著, 则采用不同的回归分析方法 筛选变量, 重构模型, 观察各个变量 P 值是否显著(小 Data Analysis and Knowledge Discovery 49
会议专辑 于 0.05), 倘若不显著说明模型建立失败。若 P 值显著, 再对 R 方(R-square)和调整 R 方(Adjusted R-square)进 行比较, 选取值较高的回归模型, 该数值越大, 预测 值与实际值越接近。 (4) 预测结果评价模块主要包括对回归模型的预 测结果进行可视化解析, 通过拟合预测分数与客观评 分, 观察预测效果。倘若预测中出现异常值和不显著 的变量, 分析其差异性的缘由, 进行剔除后, 重新构 建回归方程, 并采用预测数据检验模型的实际预测效 果, 以证明预测模型的有效性。 图 1 评分预测模型流程 4 模型验证与评估 为验证评分预测模型的有效性, 以电影评分网站 为例, 通过网络用户评论预测模型来预测电影评分。 4.1 实验数据来源选取与采集 (1) 豆瓣电影影评数据源 豆瓣电影是国内热门的电影评分网站, 收录了十 分齐全的国内外电影数据, 用户数量及电影评论数据 量巨大, 是一个理想的网络评论源。豆瓣的影评主要 以两种形式存在: 短评和长评。短评字数限制在 140 字以内, 主要是豆瓣用户对于电影较为宏观或者某个 方面的评价。长评多为篇幅型影评内容, 内容繁杂, 很 多电影之外的内容, 例如有些会介绍拍摄过程、拍摄 手法或者演职人员等。因此, 本文选取豆瓣电影评分 网站的短评作为网络用户评论语料。 以近年来的电影为样本, 为保障数据的多样化, 选取时尽量兼顾电影上映月份和不同类型的电影题 材, 如动作类、喜剧类、科幻类等。共计选择 30 部电 50 数据分析与知识发现 影, 部分电影如表 1 所示。 表 1 电影样本(部分) 编号 电影名称 国内上 映日期 类型 制作地区 1 小时代 4 2 小时代 2 2015/7/9 爱情、剧情、青春 中国内地、 中国台湾 2013/8/8 青春、剧情、爱情 中国内地、 中国台湾 2015/12/24 喜剧、荒诞、爱情 中国 2015/4/17 爱情、剧情、校园 中国 2015/7/16 剧情、喜剧、奇幻 中国 中国 中国 3 恶棍天使 4 万物生长 5 捉妖记 6 湄公河行动 2016/9/30 动作、警匪 2016/10/28 喜剧、剧情 7 驴得水 8 功夫熊猫 3 2016/1/29 动画, 喜剧、动作 美国、中国 9 百鸟朝凤 中国 2016/5/6 剧情、文化 10 七月与安生 2016/9/14 剧情、爱情、青春 中国 (2) 客观评分数据源 互联网电影数据库(IMDb)是目前信息量较大、使 用人数较多、影响范围较广、影响力较大的电影网站
总第 8 期 2017 年 第 8 期 之一[21]。IMDb 的影片得分采取统计学的计算方法, 并 结合部分专家的评分意见, 保障电影的评分不受极端 行为的影响。为保障电影评分的客观性, 本文选取 IMDb 的评分系统作为评分预测模型的客观评分来源。 (3) 电影影评时间区间选取 由于电影的影评数据时间轴较长, 通过观察电影 影评趋于稳定状态的时长, 确定选取数据的时间区间。 一般来说, 多数电影的上映期限为一个月。选取不同类 型的电影《百鸟朝凤》、《七月与安生》、《功夫熊猫 3》, 对其上映后获取的数据量进行分析, 如图 2 所示。 图 2 《百鸟朝凤》、《七月与安生》、《功夫熊猫 3》 豆瓣影评增长趋势 从图 2 可知, 三部电影的评论数据在上映后一周 达到顶峰, 在 30 天后评论数据波动不再明显, 并趋于 稳定。此外, 在分析三部电影的豆瓣电影短评情感倾 向性方面出现类似现象, 如《七月与安生》, 正向评论 情感值和负向评论情感值在第一周内波动较为明显, 随着上映时间的推移, 情感值均在 30 天左右逐渐趋于 稳定。电影上映第 30 天, 情感值均值稳定在 1.7 左右, 浮动很小, 如图 3 所示。 图 3 《七月与安生》情感变化趋势 综上所述, 若评论数据的波动性太大, 会导致情 感量化结果出现偏差, 实际预测结果失真。因此, 在模 型构建时, 要选取能够反映稳定情感的数据源。本实 验中选取电影上映之后 30 天内的豆瓣电影评论数据 作为语料数据来源。 使用爬虫软件“集搜客”[22]抓取豆瓣电影影评(包括 短评用户名、短评内容、评论时间、获得支持数及评分 数)作为实验数据集, 选用 IMDb 为客观评分来源。共抓 取 30 部电影 1 469 660 条电影短评, 数据去重后选取电 影上映后 30 天内的短评数据, 共计 513 788 条。 4.2 预测变量获取 (1) 网络用户评论相关预测指标 网络评论预测变量通过豆瓣电影页面相关数据选 取: 评分人数(criticNum)指参与该电影评分的用户数; 参与评论人数(commentNum)指参与该电影的文字评 论的用户数; 标记看过人数(watchedNum)指已经看过 该部电影的用户数; 想看的人数(desireNum)指在豆瓣 上标记了对这部电影感兴趣或者想要观看的用户数。 其中, 开始选择想看的用户, 看过电影后改为看过, 将不再在想看那组, 即两组互斥。根据所获得数据延 展出两个变量: 参与电影评论的比例(comment Ratio) 和想看人数比例(desireRatio), 计算方法如公式(1)和 公式(2)所示。 commentRatio  (1) commentNum watchedNum desireNum desireRatio  ( desireNum watchedNum  ) (2) commentRatio 是评论人数在看过人数中的占比, 表示想表达对电影观点的影迷占比情况。很多影迷在 未观看电影前先对电影进行标记, 表明对电影有极大 的兴趣, desireRatio 表示想看人数占想看人数和已看 过人数之和的比例, 可反映对电影的喜爱程度。由于 获取的数据量级比较大, 为避免模型失真, 本文采用 底数为 10 的对数缩放方法对数据进行变换, 例如 criticNum 变换后的变量名为 LcriticNum。 (2) 情感特征指标 本文情感量化采用基于情感词典的方式, 使用大 连理工大学的情感词汇本体库[23]。本体库中词汇的情 感强度 1、3、5、7、9 级别分别对应 1、2、3、4、5 分, 正向情感为正数, 负向情感为负数, 中性词为零。 例如, “阻力”在本体库中被标注为负向情感词并且情 感强度为 3, 其对应的情感分数为–2 分。sentimentScore Data Analysis and Knowledge Discovery 51
会议专辑 代表某条评论的情感分数, i 代表评论中正向词的序列 数, Pi 代表该词对应的正向情感分数。j 代表评论中负 向词的序列数, Nj 代表该词对应的负向情感分数, 假 设评论中共有 n 个正向情感词, m 个负向情感词, 情感 分数计算如公式(3)所示。 m i 1  j  N P i sentimentScore n   (3) i 1  对 30 天的电影评论数据的情感进行量化, 并求出 情感均值(sentimentmeanScore)。为更好地表达电影的 情感倾向, 在情感均值的基础上, 计算正向情感均值 (posmeanScore)和负向情感均值(negmeanScore)。正向 情感均值为 30 天电影评分数据正向评价的算术平均 值, 负向情感均值为 30 天电影评分数据负向评价的算 术平均值。i、j、k 分别指代某条评论数据; a 表示正向 评论数量; b 表示负向评论数量; n 指总数量, 即n=a+b; pos(i)指第 i 条评论的正向情感值; neg(j)指第 j 条评论 的负向情感值; sentimentScore(k)指第 k 条评论的情感 值。计算如公式(4)–公式(6)所示。 posmeanScore a  i 1  pos i ( ) a (4) negmeanScore b  j 1  neg j ( ) b (5) sentimentmeanScore n  k 1  sentimentScore k ( ) n (6) 提取完所有电影的情感特征后, 组建出所有的预 测变量及含义(见表 2), 并归纳整理变量数据(部分数 据见表 3)。 表 2 预测变量及含义 预测变量名称 实际含义 参与评分的人数以 10 为底对数值 参与评论的人数以 10 为底对数值 已经看过的人数以 10 为底对数值 想要观看的人数以 10 为底对数值 评论人数占评分人数的比例 LcriticNum LcommentNum LwatchedNum LdesireNum commentRatio desireRatio sentimentmeanScore 电影评论情感均值 posmeanScore negmeanScore doubanScore 电影正向评论情感均值 电影负向评论情感均值 豆瓣电影评分 想要观看人次占看过和想看人次的比例 表 3 预测变量值表(部分) Lcomment Lwatched Num 4.5759 4.7196 4.6329 4.5765 4.9937 5.0007 4.7927 4.7917 4.5974 4.8858 Num 4.9563 5.1774 4.9357 5.0190 5.4185 5.3659 5.1492 5.2385 4.9611 5.2441 Ldesire Num 3.9654 3.8624 3.8567 3.9803 4.2924 4.5103 4.4252 4.0827 4.3204 4.2882 comment Ratio 0.4720 0.4121 0.5416 0.4202 0.4226 0.4565 0.4668 0.3962 0.4722 0.4760 desireRatio 0.0927 0.0462 0.0769 0.0838 0.0696 0.1224 0.1588 0.0653 0.1861 0.0997 sentiment meanScore 0.6022 0.6174 0.3044 0.5267 1.2405 1.4745 0.4241 1.7018 2.1067 1.7458 posmean Score 4.3345 4.2995 4.1802 4.1363 4.3430 4.6532 4.3093 4.6260 5.5629 4.8169 negmean Score –3.7442 –3.7318 –3.6735 –3.8332 –3.4054 –3.5063 –4.1345 –3.0234 –3.3765 –3.3355 douban Score 4.6 5 4 5.9 6.8 8.1 8.3 7.7 8 7.6 编号 电影名称 Lcritic Num 4.9019 1 小时代 4 5.1045 2 小时代 2 4.8992 3 恶棍天使 4.9530 4 万物生长 5 捉妖记 5.3677 6 湄公河行动 5.3412 7 驴得水 5.1235 8 功夫熊猫 3 5.1937 9 百鸟朝凤 4.9233 10 七月与安生 5.2082 4.3 预测分析 回归分析方法可以用来判别客观事物数量的依 存关系, 可以用来处理多个变量之间相互关系。回归 分析是研究相关关系的一种数学方法, 是寻找不完 全确定的变量间的数学关系式并进行统计推断的一 52 数据分析与知识发现 种方法[24]。常见的回归预测有多元线性回归(Multiple Regression)[25]、逐步回归(Stepwise Regression)[26]、岭 回归(Ridge Regression)[27]、套索回归(Lasso Regression)[28] 等方法。 针对上述的数据变量, 分别使用多元线性回归、
总第 8 期 2017 年 第 8 期 逐步回归、岭回归以及套索回归方法对模型进行变量 选择, 构建预测模型, 确定最优回归方程。采用 30 部 电影中 27 部电影数据作为模型构建数据, 3 部电影作 为检验数据。 由于数据涉及到多个变量, 但无法判断各变量在 模型中关联程度的大小, 因此使用多元线性回归, 观 察各变量 P 值的大小, 结果如表 4 所示。 表 4 多元线性回归各变量 P 值 变量名 LcriticNum LcommentNum LwatchedNum LdesireNum commentRatio desireRatio sentimentmeanScore posmeanScore negmeanScore P 值 0.142 0.217 0.304 0.151 0.359 0.308 0.824 0.427 0.820 当 所 有 变 量 加 入 到 多 元 线 性 回 归 时 , 最 大 值 wacthedNum 为 0.75, 远大于 0.05; 最小值 LcriticNum 也达到 0.142, 所有变量的 P 值均大于 0.05。构建多元 线性回归模型失败, 需要对变量进行筛选。 使用逐步回归、岭回归以及套索回归分别对模型 进行变量选取, 并观察各个变量的 P 值, 如表 5 所示。 表 5 三种回归方法各变量 P 值 回归方法 变量名 逐步回归 岭回归 套索回归 LcriticNum LcommentNum LwacthedNum LdesireNum posmeanScore LdesireNum commentRatio posmeanScore LdesireNum sentimentmeanScore P 值 0.0320 0.0046 0.0728 0.0027 0.0020 0.0001 0.0336 0.0020 0.0001 0.0003 通过对比逐步回归、岭回归、套索回归三种回归 分析的统计量来分析上述三种模型的实际预测效果, 各 P 值均表示模型显著, 进一步探索三种模型 R 方和 调整 R 方, 如图 4 所示。 图 4 逐步回归、岭回归、套索回归模型 统计量对比 岭回归在两个指标上都是最弱的, 且调整 R 方的 值与逐步回归、套索回归的差距非常大。对于调整 R 方, 逐步回归的值和套索回归的值相对较高, 但是逐 步回归的 R 方值最高, 达到 0.7656, 拟合效果较佳。 因此, 最优选择为逐步回归方法构建的回归方程, 如 公式(7)所示。 Y = 12.9328+35.7904  LcommentNum 2.9563 LdesireNum    LcriticNum  11.5032  LwacthedNum + 24.6262  + 1.2417  posmeanScore (7) 4.4 预测结果评价 预测分析后, 还需对得到的预测模型进行评价。 若出现异常值, 需分析原因, 剔除异常值后重构模型, 并用检验数据对模型进行检验。 (1) 预测结果分析 使用最优回归方程公式(7)对各电影评分进行预 测, 结果如图 5 所示。 通过拟合 IMDb 分数与评分预测值, 可以发现大 部分电影之间的差距很小, 误差值在很小的范围内, 说明预测模型整体上是有效的。其中有几部电影差距 较为明显, 例如《小时代 2》和《小时代 4》预测分数 明显大于其 IMDb 分数。 (2) 异常值发现 从 模型 的预测 结果 来看, 正 常电 影评 分预 测 值和 IMDb 值之间差距往往不超过 1 分, 本文定义 预测值与 IMDb 值差距超过 1 分的为异常值, 如图 6 所示。 从图 6 可知, 拟合正常情况下的电影如《明日边 缘》、《火星救援》, 预测值与 IMDb 分数的差距很小。 而《小时代 2》、《小时代 4》 预测值与 IMDb 值差距 超过 1 分, 甚至 2 分。可以判断这两部电影的评论数 Data Analysis and Knowledge Discovery 53
会议专辑 图 5 逐步回归构建模型预测评分与实际评分的直方图 表 6 剔除异常值后逐步回归变量 P 值 变量名 LcriticNum LcommentNum LdesireNum posmeanScore P 值 0.0003 0.0004 0.0002 0.0001 图 6 异常值和正常值拟合效果对比 新的回归分析结果的统计量如图 7 所示, 剔除异常 值后的 R 方和调整 R 方明显提升, R 方的值达到 0.8572, 调整 R 方的值达到 0.8287, 模型的预测效果较好。 据情感倾向具有非真实性。通过查阅新闻和文献证实 两部电影确实存在刷分行为, 说明本模型不仅具有评 分预测的作用, 在“网络水军”探测方面也发挥一定的 作用。 (3) 剔除异常值并重构模型 为避免异常值对模型的干扰, 剔除《小时代 2》和 《小时代 4》的数据, 利用逐步回归的方法重新构建预 测方程。此外, 新的回归模型剔除了 P 值略高的 LwatchedNum, 仅使用 LcriticNum、LcommentNum、 LdesireNum 以及 posmeanScore, 这些变量的 P 值都具 有极高的显著性, 如表 6 所示, 构建回归方程如公式 (8)所示。 Y = 11.1349+7.4531 LcommentNum  LcriticNum +1.1499   7.4636 posmeanScore    2.3371  LdesireNum (8) 54 数据分析与知识发现 图 7 剔除异常值回归分析统计量的直方图 对比新模型拟合的预测值与 IMDb 分数如图 8 所 示, 可以明显看出, 各个电影的预测值和 IMDb 值之 间差距较小, 最大差距的为《叶问 3》, 差值为 0.7 分; 最小差距的为《垫底辣妹》, 差值仅为 0.05 分。因此, 公式(8)具有较好的预测效果, 根据方程中的变量要
总第 8 期 2017 年 第 8 期 图 8 剔除异常值后回归构建模型预测评分与 IMDb 分数的直方图 求, 仅需要其电影的 LcriticNum、LcommentNum、 LdesireNum 和 posmeanScore 就可以对电影的客观评分 进行预测。 (4) 模型检验 为了检验模型实际效果, 使用预留的三部电影数 据进行评分预测, 分别为《心迷宫》、《七月与安生》以 及《我的少女时代》, 相关变量如表 7 所示。 表 7 评分预测模型检验数据 电影名称 LcriticNum LcommentNum LdesireNum posmeanNum 心迷宫 七月与安生 我的少女时代 5.1247 5.2082 5.3919 4.7244 4.8858 5.0585 4.6835 4.2882 4.4110 4.9646 4.8169 4.8415 利用公式(8)对三部电影的评分进行预测, 结果如 图 9 所示。 图 9 模型实际预测效果 可以看出三部电影的评分预测值与 IMDb 实际值 都很接近且误差很小, 《七月与安生》的误差为 0.0522, 《我的少女时代》的误差为 0.0227, 《心迷宫》的误差 为 0.0644, 因此, 模型的实际预测效果较理想。 5 结 语 互联网环境下, 评分网站不容忽视, 一方面为潜 在消费者选购商品提供决策参考, 另一方面为商家提 供商机。评分网站由于开放性导致产品评分失真, 客 观的评分网站需求愈发迫切。本文提出基于网络用户 评论的评分预测模型来预测客观评分, 该模型主要包 括网络用户评论获取、预测变量获取、预测分析以及 预测结果评价 4 个模块。为验证评分预测模型的有效 性, 以“豆瓣电影”的评论内容作为语料来源, 以 IMDb 作为客观评分来源。对近年来 30 部不同类型的电影影 评进行实证研究, 结果显示, 在评分预测模型中, 电 影上映 30 天时的评论数据稳定性最高, 最适合用作预 测数据源。在回归分析中, 逐步回归方式筛选出变量 构建的回归方程预测效果最优。在预测分数和 IMDb 分数拟合阶段, 发现异常值, 说明本模型不仅具有评 分预测的作用, 在“网络水军”探测方面也有一定的作 用。剔除异常值后, 仅需要其电影的 LcriticNum、 LcommentNum、LdesireNum 和 posmeanScore 变量就可 以对电影的客观评分进行预测, 重构模型之后利用三 部电影对模型评分预测效果进行检验, 预测评分效果 较佳。 本文存在以下不足之处: 数据样本量较少, 可考 虑通过增加数据量优化模型预测效果; 此外, 在情感 Data Analysis and Knowledge Discovery 55
分享到:
收藏