中国科技论文在线
http://www.paper.edu.cn
基于大数据的用户特征分析 #
武冠芳,崔鸿雁*
(北京邮电大学信息与通信工程学院,网络交换技术国家重点实验室,网络系统架构和融合
重点实验室,北京,100876)
摘要:互联网应用到各行各业,用户在使用各种不同业务的同时产生并积累了大量的历史数
据。海量用户数据中蕴藏着丰富的信息,已经成为计算机时代最宝贵的资源。应运而生的数
据挖掘技术和云计算技术旨在挖掘用户大数据中蕴含的价值。用户数据中包含用户行为特
征,而用户行为通常和多种社会因素和技术参数相关,这些会影响不同场景下用户的角色及
特征规律。各学科中,对一组对象的研究都是基于实测时间序列,并通过各种数学手段对其
进行处理,寻找出序列变化特征、发展规律与趋势,从而对未来某时刻的状态进行估计。本
文对运营商用户数据进行分析,从现有用户数据所具备的特征出发,深入挖掘用户行为规律,
并通过构建时间序列分析模型,寻找用户特征相关因子,梳理出影响用户行为的单因素及多
因素,分析用户特征规律,获取用户的行为模式,从而创造更多的价值。
关键词:大数据;时间序列;用户特征
中图分类号:TP301.4
Analysis of user characteristics based on big data
WU Guanfang , CUI Hongyan
(Information and Communication Engineering School,Beijing University of Posts and
Telecommunications,State Key Lab. of Networking and Switching Technology,Key Lab. of
Network System Architecture Convergence,Beijing,100876)
Abstract: It has accumulated a large number of user data in the process of the infiltration from internet
to industry. Vast amount of user data contains a wealth of information, which has become the most
valuable resources of the computer era. Data mining technology and cloud computing technology are
designed to tap value for user data. User data contains user behavior characteristics, and user behavior
is usually associated with a variety of social factors and technical parameters, which will affect the
user's role and characteristics of different scenarios. In each subject, the research on a group of objects
is measured based on time series, and carries on the processing through mathematics, to find out the
law of development and trend of sequence variation, and thus to estimate the future state of a moment.
This paper carries on the analysis to the user data of the operators, starting with features from the
existing user data, dig the user behavior, and find the factors related to user characteristics by
constructing time series model, sort out the single factor and multiple factors affecting consumer
behavior. By analysing user characteristics, it can obtain user behavior patterns, thereby creating more
value.
Key words: big data; time series; user characteristics
5
10
15
20
25
30
35
40
0 引言
在运营商提供的基础设施和运行网络条件下,手机等智能终端的功能日益强大,用户的
需求呈现出多样性的特点,用户在使用不同业务的同时,在云端产生了大量的数据信息,通
过大数据处理技术,分析用户特征规律,可以获取用户的行为模式,从而创造更多的价值。
45
对于企业来讲,鼓励现有的用户回访能使他们成为业务的稳定客户和贡献者。为此,所
需的衡量指标包括:用户访问的平均间隔,它表明企业所提供的服务在多大程度上融入用户
基金项目:国家自然基金(61201153);国家 973 项目基金(2012CB315805)
武冠芳(1992-),女,硕士研究生,主要研究方向:数据挖掘,大数据
崔鸿雁(1977-),女,副教授,主要研究方向:社会网络、业务特征挖掘、用户行为分析等
- 1 -
中国科技论文在线
http://www.paper.edu.cn
的日常生活;另一个指标则是不再访问的用户数[1]。
用户行为是一个广义的抽象概念,是指用户在使用业务过程中表现出来的规律。研究用
户行为的特点及规律,可以预测并控制用户的行为。如果能够支配任何一种类型的行为,不
管是积极的还是消极的,都有可能鼓励其他人改变他们的行为,甚至放弃其决策。因此,监
5
控和分析用户行为以及其随时间的演化,特别是其直接影响因素如用户流量,使用时长,发
消息数等等,可以为业务使用情况以及企业决策提供极其有价值的信息。
用户的不同社会生活背景、不同的行为习惯和兴趣爱好以及不同的社交群体,都将导致
相应的用户行为带有个性化的特点。近来,对用户社会行为的分析得到了广泛的研究,包括
Facebook 上的用户交互分析[2],活动推荐[3],用户活动水平分析[4]等。
10
大多数基于特征的分析都涉及到确定用户角色或者通过可视化或利用一组确定的用户
15
特征和方法来捕捉用户行为。文献[5]应用统计分析,并结合一个语义模型和规则来表示在
线社区的用户行为。Sofia 等人给出了一个具有动态性的特征到角色的关联规则的框架,并
将语义因素考虑在内。他们定义了本体论与规则框架的概念,从而动态的,自动的计算取值
范围来决定用户会被分为哪一类。文献[6]将聚类和主成分分析方法应用在用户特征分析上,
对论坛用户进行角色挖掘。Ellison 等人[7]利用回归方法分析 Facebook 上的用户特征。类似
的,Barash 等人[8]使用回归来学习线性关系的特征。文献[9]提出了一种基于本体论的限制玻
尔兹曼机模型用于社会网络中预测用户的行为。NhatHai 等人提出自底向上的算法来学习本
体论中的用户表示,然后通过扩展限制波尔兹曼机(RBMs)作为用户行为预测模型,结合用
户表示、自我激励、社会影响和环境机制等参数分析用户行为。
20
本文采用运营商用户数据集,从现有用户数据所具备的特征出发,分析用户行为规律。
研究方法的重点在于充分利用用户数据,深入挖掘用户特征规律,并通过构建时间序列分析
模型,寻找用户特征相关因子。通过对数据进行抽样和统计方法挖掘,梳理出影响用户行为
的单因素及多因素,获取用户行为模式,为企业决策创造更多的价值。
1 时间序列模型
25
1.1 时间序列的定义、特点及分类
时间序列指的是在人类自然、社会科学中记录的一系列变量,有一定的时间先后顺序,
往往都是按照一定的时间间隔进行记录,包含了大量历史信息。
时间序列中数据的取值随着时间的变化而不同,通常是对相关指标变量在不同时间点或
不同时期内进行观察所得到的结果,存在前后时间上的相依性[10]。
30
根据所研究问题的不同,时间序列可以分为一元时间序列和多元时间序列;离散时间序
列和连续时间序列;线性时间序列和非线性时间序列;平稳时间序列和非平稳时间序列;随
机时间序列和确定性时间序列[11]。
1.2 时间序列的表示及数字特征
若对于特定的 t
为一随机变量,则称这一组随机变量
35
为一个随机过程。
对于随机过程 ,对任意一个
, 是随机变量,它的分布函数
表示为
,称为随机过程 的一维分布。
- 2 -
()tTTYt,为一参数指标集,{}Yt{}YttTtY()tYFy()()tYtFyPYytY
中国科技论文在线
http://www.paper.edu.cn
一 般 地 , 对 于 任 意
的 联 合 分 布 函 数 为
,称为随机过程
的 m 维分布。
在时间序列分析中,常用的关于随机过程的数字特征有如下几种[11]:
5
i.均值函数
对于时间序列
,对任意一个
, 都是一个随机变量。假设该随机变量的分布
函数为
,那么该序列在时刻 t 的均值就为
(1)
ii.方差函数
时间序列
在时刻 t 的方差可以通过下式得到:
10
(2)
iii.自协方差函数
对于时间序列
,在两个不同的时刻 t,s,
为两个随机变量,他们之间的协
方差称为时间序列
的自协方差:
15
iv.自相关函数(ACF)
(3)
(4)
随机过程的平稳性是指随机过程的统计特征不随时间的推移而发生变化。随机过程可以
分为严平稳过程和弱平稳过程[11]。
20
①严平稳过程
设
为 随 机 过 程 , m , h 为 任 意 实 数 , 若
这 一 定 义 表 明 , 将 观 测 时 刻
同 时 往 前 或 往 后 推 移 h 步 得 到 时 刻
,在这两组时刻观测值的联合分布相同,即严格平稳过程的分布不随
,则称
为严格平稳过程。
时间推移而变化。
25
②弱平稳过程
若 随 机 过 程
的 二 阶 矩 存 在 , 且 满 足
,
,即一阶矩和二阶矩不随时间推移而
变化,则称
为若平稳随机过程。
1.3 时间序列分析
30
时间序列分析的关键在于建立模型,而构建模型首先就要对模型可能涉及的时间序列特
征进行分析,主要包括:
(1)时间序列的相关性
- 3 -
112,,,,,,mmttmNtttTYY112,,121(,,)(,,)tttmmYYYmttmFyyyPYyYy{}tY{}tYtTtY()tYFy()()tttYEYydFy{}tY22()[()]()ttttYDYyEYdFy{}tY,tsYY和{}tY,(,)[()()](,)tsttsstsCovYYEYEYYEYts,(,)(,)(,)(,)(,)tstststsCovYYttss{}tY1212,,12,,12(,,)(,,)tttthtthmhmYYYmYYYmFyyyFyyy{}tY12,,,mttt12,,,mththth{}tY()tEY(,)(,)(,0)tststhshts{}tY
中国科技论文在线
(2)时间序列的平稳性与非平稳性
http://www.paper.edu.cn
(3)时间序列的波动聚集性
时间序列分析主要分为四个基本步骤[11]:(1)模型识别;(2)模型估计;(3)模型检验;(4)
模型应用。具体如图 1 所示:
5
图 1 时间序列分析流程图
2 用户特征分析
用户特征分析,简单来讲就是从累积的海量用户历史数据当中挖掘出用户的特征规律。
用户表现出的特征与应用场景息息相关。本文所研究的用户特征是指用户使用业务所产
10
生的数据特征,是基于用户所使用的移动网络业务为承载。文中对运营商数据中蕴含的用户
特征进行分析。首先按照传统的自顶向下的设计范式[9],确定三个核心概念模块:社交群活
动、个体活动和个性化特征。然后提取影响用户行为的核心概念和相关关系如用户使用流量
情况,用户登录时长、用户发状态数、用户发消息数、用户交互数等。这三个模块可以描述
如下:
15
个性化特征:用户固有属性,包括用户自身特征和外界环境决定的属性,前者包括用户
标签、年龄、性别等;后者包括用户职业、收入、使用业务情况等。
个体活动:用户自身使用业务所产生的活动,包括用户登录数、发状态数、访问次数等。
社交群活动:用户彼此交互使用业务所产生的活动,主要分为离线活动和在线活动两大
类,前者包括用户对该业务的支持度;后者包括用户间发送消息数、评论数、互发邮件数等。
20
用户行为的表示是指将表征用户行为的量(如使用流量,用户使用业务过程中产生的行
为数据等)在数学意义上进行定量地刻画和描述,本文的做法是将用户行为根据某种规则建
模为时间序列,根据业务分类,从时间序列的角度对其进行分析,找出用户行为特征如用户
上网和流量特征、用户业务和喜好特征等。
①用户上网和流量特征
25
上网次数、时长、流量大小、流向
流向:上下行
- 4 -
模型识别参数估计模型诊断与检验是否可取应用不可取收集时间序列数据判断时间序列的平稳性
中国科技论文在线
②用户业务和喜好特征
用户使用的主要业务种类
业务使用情况:使用时长、使用次数
③其他
http://www.paper.edu.cn
5
URL 中提取的相关信息,包括微信公众号文章的阅读数、点赞数、QQ 空间浏
览数等场景值参数
本文使用的数据集来自某城市某运营商 2014 年 07 月 17 日至 2014 年 07 月 25 日的所有
城市人口的移动终端上网数据。数据格式包括:用户标识如用户手机号或者 IP 地址、流量(业
务)类型、开始时间和结束时间、时长、上下行流量、状态码、终端 IP 和访问 IP、源和目的
10
端口、上网的 URL 等。数据集涵盖了移动终端上网的所有业务。
本文中,应用 oracle 数据库分析,统计了每个用户每天的数据,然后进行相关分析。以
用户使用腾讯相关业务(包括 QQ、微信)时所产生的数据特征为例,分析了用户使用业务所
产生数据的特征规律,包括流量、时长、从 URL 中提取的场景参数等。
15
表 1 用户特征值表(按每天统计)
用户标签
个性化特征
4299924576
登陆总次数
上午登陆次数
下午登录次数
登陆总时长
404
上行流量
446914
206
下行流量
537152
198
总流量
984066
22220
个体活动特征
QQ 图片业务数
QQ 新闻业务数
QQ 下载业务数
QQ 上传业务数
92
QQ 游戏业务数
6
12
1
175
社交群活动特征
微信朋友圈访问数
微信群访问数
微信好友分享数
QQ 商店业务数
0
0
QQ 邮箱业务数
QQ 群业务数
0
0
0
8
本文对用户数据进行处理,针对每个用户(用户标签以 PHONE_NUMBER 表示)使用腾
讯相关业务(以微信和 QQ 业务为例),统计其每天的登陆总次数、上午登陆次数、下午登陆
次数、登陆总时长、上行流量、下行流量、总流量,并从 URL 信息中提取出微信朋友圈访
问数、微信群访问数、微信好友分享数、QQ 图片业务数、QQ 邮箱业务数、QQ 商店业务
20
数、QQ 游戏业务数、QQ 群业务数、QQ 新闻业务数、QQ 下载业务数、QQ 上传业务数。
并进行量化标识,建立用户特征表,形成时间序列,用来表示该用户的行为。以用户
“429924576” 为例,其特征如表 1 所示(其中用户标签为 PHONE_NUMBER 的哈希码值,表
中各字段值取自 2014 年 07 月 17 日的数据值)。
本文着重从用户流量、使用时长以及登陆次数等方面分析用户特征规律。
- 5 -
中国科技论文在线
2.1 用户使用业务流量和持续时长特征
http://www.paper.edu.cn
通过对每个用户的特征表分析可知,用户每天使用业务流量及持续时长是一个随机的动
态变化过程,可以用随机离散非线性平稳时间序列来描述,根据式(1),针对腾讯业务,对
使用业务流量及时长求其均值函数,统计用户平均每天使用业务的时长以及使用业务所产生
5
的流量特征,如图 2 所示。
由图 2(a)可以看出,不同用户使用 QQ 和微信业务所产生的流量差异较大,这可能是由
不同的用户职业及偏好习惯所造成的。而由图 2(b)可知,不同用户使用业务的平均时长处在
一个相对一致的水平,只有极个别用户使用时长高于平均水平,这可能和用户的特殊职业相
关。所以,在该运营商移动终端用户数据集下,用户平均每天使用时长大体符合均匀分布。
10
15
20
(a)用户使用流量规律 (b)用户使用业务的登陆时长
图 2 用户平均每天使用 QQ、微信业务持续时长和流量
综合图 2(a)和图 2(b),由于用户平均使用时长大致相同,而平均使用流量却有所差异,
根据这一特征规律,该运营商移动终端用户可以分为两类:一是,登陆期间平均业务量较小,
例如那些只是平时利用 QQ 和微信传输文件等资料信息或者使用 QQ 邮件业务,每次通信也
25
只是较少的流量消耗的商务型用户;二是,诸如使用 QQ 视频、QQ 语音、QQ 游戏或 QQ
商店等业务,每次都会产生大量业务的娱乐型用户。那么,对这两类用户,服务提供商便可
进行有针对性的业务推广或用户保留方案。
2.2 分类用户的登陆时长和登陆次数特征
由上面的讨论可知,原始用户数据集中存在一些异常值用户,使得原始数据集比较粗糙。
30
所以,本文使用分类模型,对用户群体特征进行建模,按照用户记录数,对原始数据集进行
处理,剔除了记录数过少(小于 1500)以及记录有缺失的用户,剩余用户每天都有使用业务的
- 6 -
中国科技论文在线
http://www.paper.edu.cn
图 3 用户记录数的等级划分
数据记录,并将这些用户按记录数分为 7 个等级,分别代表其使用程度,各个等级所占
的比例如图 3 所示,图中的百分比代表该区间内用户占所有用户的比例,图例中记录数区间
5
从上到下分别记为 C1 到 C7。由图 3 可知,数据集中用户记录数较高的用户所占比例还是
比较大的。
针对这 7 类用户,本文分别统计了每一类用户每天使用业务时长的平均值。图 4 给出了
每类用户每天的登录时长和登陆次数随时间的变化关系。从图中可以看出,C3 和 C4 类用
户每天使用业务持续时长随时间的推移有较强下降的趋势,并且由图 4(b)可知该类用户平均
10
每天的登陆次数也偏低,这两类用户业务行为不积极,需要进行用户保留。另外,C5 和 C7
类用户使用业务的时长是随时间呈上升的趋势,由图 3 可知其记录数也是比较高的,而且用
户数占到了总用户的一半以上,所以如果对这部分用户做有针对性的用户激励,效果是最明
显的。C2 和 C6 类用户每天平均使用时长相对稳定并且处于较高的水平,其登录次数也较
高,属于正常使用用户。C1 类用户其使用业务时间处于偏低的水平,并且变化趋势不明显。
15
另外,从图 4 中可以看出,C3 和 C7 类用户在周末使用业务时长和登陆次数反而降低,
则他们很有可能是我们上述分类的第一类,即,非工作日期间使用率变低,可能属于商务人
士;而其他类别的用户更多的是周末使用量偏大,属于娱乐型用户。
结合图 4(a)和图 4(b)的规律,可以得出,该运营商移动终端用户使用业务的时长和登陆
次数的变化方向趋势是相同的。
20
- 7 -
中国科技论文在线
http://www.paper.edu.cn
(a)各个类别内用户平均登录时长随时间的变化关 (b) 各个类别内用户平均登陆次数随时间的变化关系
图 4 分类用户平均登陆时长和平均登陆次数的变化关系
3 用户特征规律
5
根据上文对用户特征的分析,我们发现本文使用的运营商移动终端用户数据集的一些特
征规律,总结为以下几点:
(1) 根据用户使用业务所表现出来的规律特征,该运营商移动终端用户大致分为两类:
一是娱乐型用户,其特点表现为登陆频繁,并且平均业务量较高;二是商务型用户,其特点
是只在有需要的时候登陆,每次产生的业务数据也较少。
10
(2) 用户平均每天使用时长服从均匀分布,即平均每天使用时长处于一个稳定的水平,
不随时间和用户种类的变化而变化。
(3) 用户平均每天使用业务的时长和登陆次数同向变化。
(4) 商务型用户在周末使用业务量少;而娱乐型用户在周末以及每天的傍晚和深夜使用
业务比较频繁。
15
综上,本文所讨论的运营商移动终端用户数据集,主要包括商务型和娱乐型用户两大类,
并且两类用户在一天中使用业务的时间点以及工作日和周末使用业务的规律有所不同。但
是,两类用户平均每天使用业务的总的持续时间是均匀变化的,不随用户种类和时间的变化
而变化。
服务提供商也可以根据不同类型用户的特征来进行有针对性的用户保留和激励措施,减
20
少损失,从而创造更多的价值。
4 结论
将表征用户行为的量在数学意义上进行定量的刻画和描述,目前一种比较流行的做法是
将用户行为根据某种规律建模为时间序列,然后从时间序列的角度对其进行相关分析。本文
正是利用了这一思想。在大数据背景下,用户使用不同业务的同时产生了海量的行为历史数
25
据,应用数据挖掘方法和云计算技术可以从这些数据中提取有关用户的行为信息,这在以用
户资源和数据为最大价值的今天,对企业的运营和业务支撑是十分有利的。
本文对分析了运营商用户数据的特征规律。运行商用户使用业务所产生的行为数据可以
建模为随机离散非线性平稳时间序列,根据时间序列分析模型,本文对用户使用腾讯业务的
时长和登陆次数进行了研究分析,并应用分类模型按照记录数对用户进行分类,然后按类别
- 8 -