logo资料库

数据挖掘在淘宝卖家评论中的应用.doc

第1页 / 共6页
第2页 / 共6页
第3页 / 共6页
第4页 / 共6页
第5页 / 共6页
第6页 / 共6页
资料共6页,全文预览结束
数据挖掘在淘宝买家评论研究中的应用
数据挖掘在淘宝买家评论研究中的应用 摘 要:淘宝网为买家提供了对所购商品进行评论的平台,该平台为淘宝卖家创造了推广店铺商品、与顾 客交流、接收顾客反馈信息等的机会。然而,在大量的买家评论中,一定会存在一些重复冗余的信息。在 当今电子商务高度发展的环境下,卖家若能够从这些大量的买家评论中迅速地挖掘出有用的、新颖的信息, 势必会给他们带来可观的利润。这篇文章旨在提出一种挖掘新颖信息的算法,并分析了算法的可行性以及 有效性。 关键词:淘宝网;买家评论;电子商务;新颖信息 0 引 言 21 世纪是电子商务高度发展的时代,作为亚太地区最大网络零售商的淘宝网,占据着 中国 80%以上的网购市场份额。因此,对淘宝网的研究无论是从理论上还是现实上都具有重 大意义。本文研究的出发点就是针对淘宝商品的大量买家评论数据。 一般顾客在淘宝店铺购买商品之后,都会在评论平台上发表一下对所购商品的看法,而 这些评论对卖家而言无疑是一笔潜在的财富。倘若卖家能够从这些评论中迅速挖掘出有用 的、新颖的信息,势必会维护店铺形象、推广店铺商品,带来可观的利润。基于文本文件的 新颖信息挖掘方法在文献[1-4]中有详细介绍,本文旨在提出一种基于淘宝买家评论数据的 新颖信息挖掘算法,并分析了算法的可行性以及有效性。 1 新颖信息挖掘 1.1 挖掘模型 新颖信息挖掘就是从文本中挖掘出读者所关心的、有用的、新颖的信息,该技术在冗余 信息过滤领域有着广泛的应用[5]。新颖信息挖掘模型主要由三个部分组成,即预处理、分 类和新颖信息挖掘(如图 1 所示)。当某一位买家的评论输入到模型中后,首先借助机器学 习方法进行预处理;预处理之后进入分类阶段,该阶段的主要任务就是借助事先给定的主题 (或关键字)来过滤不相关的评论;最后进入新颖信息挖掘阶段,该阶段的任务就是通过和 历史记录做对比,判断该条评论是否是新颖的。 买家评论 预处理 ( 机 器 学 习 方法) 分类 相 关 评 论 新颖信息挖 掘 新 颖 评 论 DB 给定主题(或关键 字) 图 1 新颖信息挖掘模型 历史记录
本文中,所有买家的评论将被人为地分为三类:质量、价格与物流供应。因此,我们所 关注的是预处理与新颖信息挖掘这两个阶段。 1.2 挖掘算法 文献[6]介绍了新颖信息挖掘算法的两种基本思想,即“一对一比较”与“多对一比较”。 本文是基于“一对一比较”这一思想,即通过当前评论记录与其之前每一条记录相比较,获 得该条记录的新颖度,然后与预先给定的一个阈值相比较,若小于,则认为该条评论 记录是冗余的,否则是新颖的。在写出挖掘算法步骤之前,先介绍几个基本概念。(设数据 库中已存放 CN 条买家评论数据记录) 定义1.1:设i表示数据库存放的第i条买家评论记录,n表示预先给定的关键词 数目,w(i=1,2,…,CN,j=1,2,…,n)表示第 个关键词在i中的权重, 则: ij w  ij N TN (1) 其中, 表示第 个关键词在 中出现的次数, 表示 中共有多少个单词. i i 定义 :令 表示第 条记录, N 1.2 j i i k(1 k    i 1) 表示 之前的某一条记录,则 与 的相 i k j TN i 似度用余弦函数表示为: cos( , )= i k 其中, d i  ( w w i i , 1 , … , w in ) , d k  ( 2 k 定义 :令i表示第 条记录, 1.3 i (1 N( )可以表示为: i k i d d g k i d d w w 1 k k i k , , , … w kn ) . 2 ' (1   i CN , 1 k 1    ) i (2)    1) 表示i之前的某一条记录,则i的新颖度 N( )=1- max (cos( , )) (1 i i k   CN ) (3) 其中,max (cos( ,k))表示第 条记录的冗余度. i 1 1 i    k i i 1 1 i    k 新颖信息挖掘的算法步骤如下: (1) 给定阈值与 n 个关键词; (2) 浏览数据库中的第 i 条评论记录,由(1)式算出第 j 个关键词在 i 中的权重 ijw (i=1,2,…,CN,j=1,2,…,n); (3) 由(2)式算出第 i 条记录与其之前的每一条记录的相似度(i=1,2,…,CN); (4) 由(3)式计算出第 i 条记录的新颖度(i=1,2,…,CN); (5) 根据“一对一比较”这一思想,确定第 i 条记录是否冗余(i=1,2,…,CN). 1.3 算法的可行性和有效性分析 文献[7]给出了用 F 值法来衡量新颖信息挖掘算法的可行性以及有效性。在统计学中, F 值法广泛应用于信息检索、文件分类以及查询分类等领域。F 值的表达式如下: 2 F  其 中 P  M S 表 示 查 准 率 , R  M A   P R P R  , ( ) 4 表 示 查 全 率 , 表 示 通 过 阈 值 控 制 检 索 出 的  S 相 关 信 息 总 量 , 表 示 中 真 正 是 相 关 信 息 的 数 量 , 表 示 系 统 中 的 相 关 信 息 M S A 总 量 .
查准率、查全率以及 F 值是用来衡量挖掘模型检测新颖信息效率的三个指标,而文献[8] 给出了另外三个指标,分别是——冗余查准率(RP)、冗余查全率(RR)以及冗余 F 值(RF), 这三个指标从冗余信息的角度来分析新颖信息挖掘算法的可行性与有效性。冗余查准率和冗 余查全率定义如下: RP  ,M r Sr RR  M r Ar 其 中 表 示 通 过 阈 值 控 制 检 索 出 的 不 相 关 信 息 总 量 , 表 示 中 真 正 是 不 相  Sr M r Sr 关 信 息 的 数 量 , Ar表 示 系 统 中 不 相 关 信 息 总 量 . 定义了冗余查准率与冗余查全率之后,下面给出冗余 F 值(RF)的表达式: 2 RF  2 实 例  RP  RP RR  RR ( ) 5 本文所需数据来源于淘宝网上一家手机店铺在 2010 年内所收到的 1269 条买家评论记 录,将其存放为 SQL server 2005 中的一张表——comments。在存放数据库里之前,我们人 为地将数据分为三类:质量类(标记为 1)、价格类(标记为 2)与物流供应类(标记为 3)。 comments 包括以下 5 列:buyerId(买家账号),buyerStar(买家星级),content(评论内容), catid(所属类别),dateTime(评论时间)。表 1 给出了 comments 的前 5 行。 表 1 comments 表的前 5 行 按照 catid 列进行频数分析,如表 2 所示。 类别 1 2 3 SUM 表 2 各个类别的新颖率 记录数 新颖记录数 656 267 346 1269 630 260 321 1211 新颖率 0.9604 0.9738 0.9277 0.9543 限定阈值从 0 到 1,步长取为 0.05,根据第 1.2 介绍的挖掘算法,从检索新颖信息的 角度算出不同阈值下的查准率、查全率以及 F 值,如表 3 所示。
 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 0.50 0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 1.00 表 3 不同阈值下算法的查准率、查全率以及 F 值 A 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 — S 1269 1268 1268 1268 1267 1266 1266 1266 1262 1258 1257 1253 1242 1230 1211 1179 1137 1051 872 385 — M 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1211 1210 1209 1206 1188 1159 1120 1040 864 379 — P 0.9543 0.9550 0.9550 0.9550 0.9558 0.9566 0.9566 0.9566 0.9596 0.9626 0.9634 0.9657 0.9734 0.9805 0.9810 0.9830 0.9850 0.9895 0.9908 0.9844 — R 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 0.9992 0.9983 0.9959 0.9810 0.9571 0.9249 0.8588 0.7135 0.3130 — F 0.9766 0.9770 0.9770 0.9770 0.9774 0.9778 0.9778 0.9778 0.9794 0.9810 0.9814 0.9821 0.9857 0.9881 0.9810 0.9699 0.9540 0.9195 0.8296 0.4749 — 从检索冗余信息的角度,给出不同阈值下算法的冗余查准率、冗余查全率以及冗余 F 值,如表 4 所示。(限定的范围从 0.5 到 0.95,步长仍取为 0.05) 表 4 不通阈值下算法的冗余查准率、冗余查全率及冗余 F 值  0.55 0.60 0.65 0.70 0.75 0.80 0.85 0.90 0.95 Ar 58 58 58 58 58 58 58 58 58 Sr 16 27 39 58 90 132 218 397 884 Mr 15 25 34 35 38 41 47 50 53 RP 0.9375 0.9259 0.8718 0.6034 0.4222 0.3106 0.2156 0.1259 0.0600 RR 0.2586 0.4310 0.5862 0.6034 0.6552 0.7069 0.8103 0.8621 0.9138 RF 0.4054 0.5882 0.7010 0.6034 0.5135 0.4316 0.3406 0.2198 0.1125 根据表 4 中的数据,借助 matlabR2008a 软件作出 R—PRF 曲线,如图 2 所示。
图 2 R—PRF 曲线 从表 3、表 4 及图 1 可以很清晰地看出:当阈值达到 0.65 时,RF 值达到最大为 0.7010, 此时 F 值恰好也达到最大为 0.9881。因此,当检索买家评论记录数据库时,建议阈值最好 控制在 0.65 左右。 3 结 论 基于淘宝买家评论记录数据库,本文构建了新颖信息挖掘模型,并在模型的基础上给出 了新颖信息挖掘算法,最后从挖掘新颖信息与挖掘冗余信息两个角度分析了算法的可行性与 有效性。在文本信息挖掘中,一般都会预先给定一个阈值,通过本文的分析发现,在检 索买家评论记录数据库时,最好控制在 0.65 左右。
参 考 文 献 [1] [2] [3] [4] Kwee,A.T.,&Tsai,F.S.(2009).Mobile novelty mining.International Journal of Advanced Pervasive and Ubiquitous Computing,1(4),43-68. Kwee,A.T.,Tsai,F.S.,&Tang,W.(2009).Sentence-level novelty detection in English and Malay.Lecture Notes in Computer Science(LNCS),5476,40-51. Tang,W.,&Tsai,F.S.(2009).Threshold setting and performance monitoring for novel text mining.In:SIAM Internation Conference on Text Mining(pp.1-10). Tang,W.,&Tsai,F.S.(2010).Blended metrics for novel sentence mining.Expert System with Applications,1-20. on Data Mining Workshop [5] Tsai,F.S.,&Chan,K.L.(2010).Redundancy and novelty mining in the business blogsphere.The [6] [7] [8] Learning Organization,1-9. Tsai,F.S.,&Kwee,A.T.(2011).Database optimization for novelty mining of business blog.Expert System with Applications,38(2011),11040-11047. Zhao,L.,Zheng,M.,&Ma,S.(2006).The Retrieval,9,527-541. nature of novelty detection.Information Zhang,Y.,Callan,J.,&Minka,T.(2002).Novelty and redundancy detection in adaptive International ACM SIGIR filtering.In:SIGIR 2002:Proceeding of Conference on Research and Development in Information Retrieval(pp.81-88). the 25th Annual
分享到:
收藏