用户行为数据分析项目计划书
用户行为数据分析 项目计划书
2011/5/4
修改记录
版本
V1.01
修改日期
修改人
修改内容
创建,初稿
审核人
技术开发部
用户行为数据分析项目计划书
数据采集方式分析
数据分析模型 需求
描述和示例
网站用户身份识别;
web 日志缺陷;漏斗模
型
数据分析模型与数据
库表的对应关系
WEKA 开源数据挖
掘工具
统计分析系统项目周
期和项目开发进度
Analysis.mpp
V1.01
V1.01
V1.01
V1.01
V1.01
V1.01
技术开发部
用户行为数据分析项目计划书
目录
一、 项目背景 ................................................................................................................................ 5
二、 相关术语 ................................................................................................................................ 5
1. Web 数据挖掘 .................................................................................................................. 5
1) Web 数据挖掘分类................................................................................................... 6
2) Web 数据的特点 ...................................................................................................... 7
3) 典型 Web 挖掘的处理流程 ..................................................................................... 7
4) 常用的数据挖掘技术 ............................................................................................... 7
5) Web 商业智能 BI(Business Intelligence) ............................................................ 8
2. 网站流量统计 ................................................................................................................. 10
3. 统计指标/术语 ................................................................................................................ 10
4. 用户分析 -- 网站用户的识别 ...................................................................................... 13
5. WEB 日志的作用和缺陷 ............................................................................................... 15
6. 漏斗模型(Funnel Model) .......................................................................................... 17
7. 目前提供此服务产品/企业 ............................................................................................ 18
三、 项目目的 .............................................................................................................................. 18
四、 项目需求 .............................................................................................................................. 18
1. 页面统计 ......................................................................................................................... 18
2. 用户行为指标 ................................................................................................................. 19
3. 潜在用户特征分析 ......................................................................................................... 19
4. 指定 User Cookie 的分析 ............................................................................................... 20
5. 用户趋势分析 ................................................................................................................. 20
五、 项目系统设计 ...................................................................................................................... 20
六、 项目详细设计 ...................................................................................................................... 21
1. 数据收集 ......................................................................................................................... 21
2. 数据模型 ......................................................................................................................... 22
1) 统计 PV 量(趋势) ................................................................................................... 22
2) 消重 统计独立 IP 量 / IP 的平均访问页面量(趋势) .......................................... 22
3) 消重 统计独立 UV 量 / UV 的平均访问页面量(趋势) ...................................... 23
4) 统计 URL 的访问来源 Ref 的量 / Ref 排行(趋势) .............................................. 23
5) 统计 Ref=URL 的去访 URL*/跳出的量 / 去访/跳出排行(趋势) ...................... 23
6) 统计分析/预测/规律 特定用户的行为(趋势) ...................................................... 24
7) 统计新访客/老访客(趋势) ..................................................................................... 24
8) 页面平均停留时间 / 页面平均时长 (趋势) ....................................................... 24
9) 搜索引擎列表 ......................................................................................................... 24
10) 搜索引擎关键词 ..................................................................................................... 25
11) 搜索引擎关键词(各搜索引擎) .............................................................................. 25
12) 老用户回头率(用户黏性) ................................................................................. 25
13) 新增用户增加/流失(用户黏性) ........................................................................ 25
14) 不活跃用户激活(用户黏性) ............................................................................. 26
15) 用户浏览深度(用户黏性) ................................................................................. 26
技术开发部
用户行为数据分析项目计划书
16) 用户访问兴趣分析(用户黏性) ......................................................................... 26
17) 性别结构(访客特征分析) ...................................................................................... 26
18) 年龄结构(访客特征分析) ...................................................................................... 26
19) 学历结构(访客特征分析) ...................................................................................... 26
20) 收入结构(访客特征分析) ...................................................................................... 27
21) 操作系统类型(客户端信息) .................................................................................. 27
22) 操作系统语言(客户端信息) .................................................................................. 27
23) 操作系统时区(客户端信息) .................................................................................. 27
24) 浏览器(客户端信息) .............................................................................................. 27
25) 显示器颜色(客户端信息) ...................................................................................... 27
26) 屏幕分辨率(客户端信息) ...................................................................................... 28
27) 国家/省份 - 地址位置(客户端信息) .................................................................... 28
28) 城市 - 地址位置(客户端信息) ............................................................................. 28
29) 接入商(客户端信息) .............................................................................................. 28
30) 场所(客户端信息) .................................................................................................. 28
3. 数据处理 ......................................................................................................................... 28
4. 数据展示 ......................................................................................................................... 28
1) 参考网站 ................................................................................................................. 29
2) 趋势 – 曲线图趋势 ............................................................................................... 35
3) 忠诚度 / 用户黏性 ............................................................................................... 39
4) 用户客户端 浏览器 ............................................................................................... 41
5) 来源分析:Ref 分析、 站内/站外、站外统计 .................................................. 41
6) 用户行为 ................................................................................................................. 45
七、 项目约束 .............................................................................................................................. 45
八、 项目资源 .............................................................................................................................. 45
九、 项目周期 .............................................................................................................................. 46
十、 项目交付 .............................................................................................................................. 48
十一、 其他信息 ......................................................................................................................... 48
技术开发部
用户行为数据分析项目计划书
一、 项目背景
数据挖掘技术是近年来计算机技术发展的热点之一。通过对历史积累的大量数据的有效
挖掘,可以发现隐藏的规律或模式,为决策提供支持,而这些规律或模式是不能够依靠简单
的数据查询得到,或者是不能在可接受的时间内得到。这些规律或模式可以进一步在专业人
员的识别下成为知识。数据挖掘面对的任务是复杂的,通常包括分类、预测、关联规则发现
和聚类分析等。
企业网站的绩效考评就是指企业网站访问情况的绩效考评,在网络营销评价方法中,网
站访问统计分析是重要的方法之一,通过网站访问统计报告,不仅可以了解网络营销所取得
的效果,而且可以从统计数字中发现许多有说服力的问题。网站访问量统计分析无论对于某
项具体的网络营销活动还是总体效果都有参考价值,也是网络营销评价体系中最具有说服力
的量化指标。
销售预测在提高企业的经济效益及决策支持水平方面占有重要的地位。随着企业信息化
水平的提高,企业销售数据的日益丰富,管理者对其中隐藏的销售预测信息的渴望日益强烈。
用传统的方法来分析这些海量数据中的销售信息非常困难,已不能适应时代的要求。如何找
到更好的方法挖掘出销售数据中隐藏的销售预测信息。
二、 相关术语
1. Web 数据挖掘
Web 数据挖掘建立在对大量的网络数据进行分析的基础上,采用相应的数据挖掘算法,在
具体的应用模型上进行数据的提取、数据筛选、数据转换、数据挖掘和模式分析,最后做出
归纳性的推理、预测客户的个性化行为以及用户习惯,从而帮助进行决策和管理,减少决策
的风险。
Web 数据挖掘涉及多个领域,除数据挖掘外,还涉及计算机网络、数据库与数据仓储、人
工智能、信息检索、可视化、自然语言理解等技术。
技术开发部
用户行为数据分析项目计划书
1) Web 数据挖掘分类
Web 数据挖掘可分为四类:Web 内容挖掘、Web 结构挖掘、Web 使用记录挖掘和 Web 用户
性质挖掘。
其中,Web 内容挖掘、Web 结构挖掘和 Web 使用记录挖掘是 Web1.0 时代就已经有了的,
而 Web 用户性质挖掘则是伴随着 Web2.0 的出现而出现的。
2.1 Web 内容挖掘(WCM,Web Content Mining)
2.2 Web 结构挖掘(WSM,Web Structure Mining)的基本思想是将 Web 看作一个有向图,
他的顶点是 Web 页面,页面间的超链就是图的边。然后利用图论对 Web 的拓扑结构进行分
析。
2.3 Web 使用记录挖掘(WUM,Web Usage Mining)
Web 使用记录挖掘也叫 Web 日志挖掘或 Web 访问信息挖掘。它是通过挖掘相关的 Web 日志记
录,来发现用户访问 Web 页面的模式,通过分析日志记录中的规律,可以识别用户的喜好、
满意度,可以发现潜在用户,增强站点的服务竞争力。
Web 使用记录数据除了服务器的日志记录外, 还包括代理服务器日志、浏览器端日志、注
册信息、用户会话信息、交易信息、Cookie 中的信息、用户查询、等一切用户与站点之间
可能的交互记录。
Web 使用记录挖掘方法主要有以下两种:
(1) 将网络服务器的日志文件作为原始数据,应用特定的预处理方法进行处理后再进行挖
掘;
(2) 将网络服务器的日志文件转换为图表,然后再进行进一步的数据挖掘。通常,在对原始
数据进行预处理后就可以使用传统的数据挖掘方法进行挖掘。
2.4 Web 用户性质挖掘
Web 用户性质挖掘是伴随着 Web2.0 的出现而出现的。基于 RSS、Blog、SNS、Tag 以及 WiKi
等互联网软件的广泛应用,Web2.0 帮助人们从 Web1.0 时代各大门户网站“填鸭”式的信
息轰炸,过渡到了“人人对话”,每个普通用户既是信息的获取者,也是信息的提供者。[4]
面对 Web2.0 的诞生,Web 数据挖掘技术又面临着新的挑战。
如果说 Web 使用记录挖掘是挖掘网站访问者在各大网站上留下的痕迹,那么 Web 用户性质挖
掘则是要去 Web 用户的老巢探寻究竟。在 Web2.0 时代,网络彻底个人化了,它完全允许客
户用自己的方式、喜好和个性化的定制服务创造自己的互联网,它一方面给予互联网用户最
大的自由度,另一方面给予有心商家有待发掘的高含金量信息数据。通过对 Web 用户自建的
RSS、Blog 等 Web2.0 功能模块下客户信息的统计分析,能够帮助运营商以较低成本获得准
确度较高的客户兴趣倾向、个性化需求以及新业务发展趋势等信息。有关 Web2.0 下的数据
挖掘正在进一步的研究中。
技术开发部
用户行为数据分析项目计划书
2) Web 数据的特点
1)异构数据库环境。Web 上的每一个站点就是一个数据源,每个数据源都是异构的,因
而每一站点的信息和组织都不一样,这就构成了一个巨大的异构数据库。
2)分布式数据源。Web 页面散布在世界各地的 Web 服务器上,形成了分布式数据源。
3)半结构化。半结构化是 Web 上数据的最大特点。Web 上的数据非常复杂,没有特定的
模型描述,是一种非完全结构化的数据,称之为半结构化数据。
4)动态性强。Web 是一个动态性极强的信息源,信息不断地快速更新,各站点的链接信
息和访问记录的更新非常频繁。
5)多样复杂性。Web 包含了各种信息和资源,有文本数据、超文本数据、图表、图像、
音频数据和视频数据等多种多媒体数据。
3) 典型 Web 挖掘的处理流程
包括如下四个过程:
1)查找资源:根据挖掘目的,从 Web 资源中提取相关数据,构成目标数据集,Web 数据
挖掘主要从这些数据通信中进行数据提取。其任务是从日标 Web 数据(包括 Web 文档、电子
邮件、电子文档、新闻组、网站日志、网络数据库中的数据等)中得到数据。
2)数据预处理:在进行 Web 挖掘之前对“杂质”数据进行过滤。例如消除数据的不一致
性;将多个数据源中的数据统一为一个数据存储等。预处理数据的效果直接影响到挖掘算法
产生的规则和模式。数据预处理主要包括站点识别、数据选择、数据净化、用户识别和会话
识别等。
3)模式发现:利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的及最终可以理解的
信息和知识。常用的模式发现技术包括:路径分析、关联规则挖掘、时序模式发现、聚类和
分类等技术。
4)模式分析:利用合适的工具和技术对挖掘出来的模式进行分析、解释、可视化,把发
现的规则模式转换为知识。
4) 常用的数据挖掘技术
6.1 路径分析技术
我们通常采用图的方法来分析 Web 页面之问的路径关系。G=(V,E),其中:V 是页面
的集合,E 是页面之间的超链接集合,页面定义为图中的顶点,而页面闻的超链接定义为图
技术开发部
用户行为数据分析项目计划书
中的有向边。顶点 v 的人边表示对 v 的引用,出边表示 v 引用了其他的页面,这样形成网站
的结构图,从图中可以确定最频繁的访问路径。路径分析技术常用于进行改进站点的结构。
如 70%的用户访问/company/product 时,是从/company 开始,经过/company/new/
company/products/company/product。此时可以将路径放在比较显著的地方,方便了用
户访问,也提高了该产品的点击率。
6.2 关联规则技术
关联规则挖掘技术主要用于从用户访问序列数据库的序列项中挖掘出相关的规则,就是
要挖掘出用户在一个访问期限(Session),从服务器上访问的页面文件之间的联系,这些页
面之间并不存在直接的参引(Reference)关系。使用关联规则可以发展很多相关信息或产品
服务。例如:某信息 A 和 B,同时被很多用户浏览,则说明 A 和 B 有可能相关。同时点击的
用户越多,其相关度就可能越高。系统可以利用这种思想为用户推荐相关信息或产品服务。
如当当电子书店就采用了这一模式用以推荐相关书目。当你选择某本图书时,系统会自动给
你推荐信息,告知“很多读者在购买此书时还购买的其他书目”。ACM 数字图书馆也采用了
这一思想,推出信息推荐服务“Peer to Peer”。
6.3 序列模式挖掘技术
序列模式数据挖掘技术就是要挖掘出交易集之间的有时间序列关系的模式。它与关联挖
掘技术都是从用户访问下的日志中寻找用户普遍访问的规律,关联挖掘技术注重事务内的关
系,而序列模式技术则注重事务之间的关系。发现序列模式,便于预测用户的访问模式,有
助于开展基于这种模式的有针对性的广告服务。依赖于发现的关联规则和序列模式,能够在
服务器方动态地创立特定的有针对性的页面。以满足访问者的特定需求。
6.4 聚类分类技术
分类规则可挖掘出某些共同的特性,而这一特性可对新添加到数据库中的数据项进行分
类。在 Web 数据挖掘中,分类技术可根据访问用户而得到个人信息、共同的访问模式以及访
问某一服务器文件的用户特征。而聚类技术则是对符合某一访问规律特征的用户进行用户待
征挖掘。发现分类规则可以识别一个特殊群体的公有属性的描述,这种描述可以用于分类新
的检索。如政府机关的用户一般感兴趣的页面是/company/product。聚类可以从 Web 访问
信息数据库巾聚集出具有相似特性的用户群。在 Web 事务日记中聚类用户信息或数据项能够
便于开发和执行未来的市场战略。这些事务信息可以用在:在找出用户共同兴趣后,进行合
作式信息推荐,共同体的成员町以互相推荐新的滚动信息;自动给一个特定的用户聚类发送
销售邮件,为用户聚类动态地改变一个特殊的站点等。
5) Web 商业智能 BI(Business Intelligence)
深入分析访问数据,从访问数据中挖掘财富。
技术开发部