1
InfoQ中文站
■卷首语
在 2016 年,王兴说,互联网已经进入了“下半场”,互联网人口红
利的时间已经过去了,需要对用户的深耕细作获得更多的收入和利润。过
去的一年里,各家将大数据从嘴上落到实际的运营体系当中, “用户画像”
就是其中必不可少的一环。
无论是“增长黑客”还是“精益数据分析”,所有公司精细化运营者
面对成前上万的用户,都会问那三个哲学上的终极问题:“你是谁?”(用
户画像与特征),“你从哪里来?”(用户来源渠道与效果),“你到哪
里去?”(用户流失与召回),其中用户画像系统会在业务和技术领域中
不可或缺的组件。
由于产生用户画像会用到大量的数据挖掘算法,很多的 CTO/CDO 都认
为将用户画像系统想当然的放置到挖掘团队来执行,而笔者认为,用户画
像系统,是与大数据存储平台、大数据调度平台、元数据管理平台等平行
的大数据基础业务组件,它执行力度层次应该以 CTO/CDO 执行领导的项目
2
架构师特刊:用户画像实践
体系。一个优秀的用户画像系统存在以下几个挑战,需要 CTO/CDO 亲自重
视。
用户画像系统的基础是用户统一 ID 系统:用户统一 ID 系统,在传
统公司里叫做 ECIF,它横跨了数据治理、数据整合、业务打通等几个难关;
在互联网公司中叫用户跨屏唯一 ID,对于跨屏 ID 整合算法,APP 硬件设
备指纹 / 防刷量等技术门槛有很高的要求,而做好这几点的业内公司少之
又少。
用户画像标签体系是业务技术共同合作的结晶:在大数据融合的背景
下,很多不同公司之间进行数据补全的工作,经常会遇到标签打通的难点。
其实,一个公司好的标签体系与其业务是强绑定的,通用性较强的只有用
户基本属性一层,越良好的标签体系越是和公司业务与运营密切相关,例
如万达的线下品牌偏好度标签与易观线上 APP TGI 标签就是典型不同维度
的指标体系分支。
用户画像系统与各系统打通:一个完备的用户画像系统,不仅仅为搜
索推荐引擎服务,也会为数据分析 BI 展示、风控系统、数据挖掘引擎、
数据元数据管理平台等提供有效的用户全生命周期的标签以及计算指标。
技术和业务整合难度非常大,需要跨多个技术和业务部门进行协同,是一
个技术“一把手”工程。
用户画像的时时并发挑战:一个优秀的画像系统经常会被各种系统时
时访问,很多动态标签也需要实时更新,今日头条和一点资讯的时时推
荐系统就是基于一个庞大的时时用户兴趣标签集群计算而得;而大量大数
据 Ad-hoc 查询经常体现在这里,最常见的案例就是要求秒级的用户标签
与用户行为的交叉查询(十亿级别用户 v.s. 千亿级别的用户行为),
InfoQ 中我和各位专家有很多类似文章,跟兴趣的同学可以去观看。
3
InfoQ中文站
简而化之,用户画像系统的大致关系位置如下图:
综上,用户画像系统是一个涉及到各种知识体系的综合系统,本电子
书中几个作者介绍一个公司如何从无到有的搭建用户画像系统,以及其中
的技术难点与实际操作中的注意事项,实为用户画像的实操精华之选,推
荐各位收藏阅读,也希望各位大数据从业人士在各自领域里有所斩获,算
法精进,数据大成!
易观 CTO 郭炜
4
架构师特刊:用户画像实践
目录
06 美团外卖 O2O 的用户画像实践
15 去哪儿的用户画像构建策略及应用实践
26 40 亿移动设备的用户画像和标签架构实践
34 携程是如何做用户画像的
42 百分点苏海波博士:为什么你做的用户画像模型不精准?
53 易观用户画像实践
60 让机器读懂用户:大数据中的用户画像
5
InfoQ中文站
美团外卖 O2O 的用户画像实践
李滔
美团外卖经过 3 年的飞速发展,品类已经从单一的外卖扩展到了美食、
夜宵、鲜花、商超等多个品类。用户群体也从早期的学生为主扩展到学生、
白领、社区以及商旅,甚至包括在 KTV 等娱乐场所消费的人群。随着供给
和消费人群的多样化,如何在供给和用户之间做一个对接,就是用户画像
的一个基础工作。所谓千人千面,画像需要刻画不同人群的消费习惯和消
费偏好。
外卖 O2O 和传统的电商存在一些差异。可以简单总结为如下几点:
1. 新事物,快速发展:这意味很多用户对外卖的认知较少,对平台上
的新品类缺乏了解,对自身的需求也没有充分意识。平台需要去发
现用户的消费意愿,以便对用户的消费进行引导。
2. 高频:外卖是个典型的高频O2O应用。一方面消费频次高,用户生
6
架构师特刊:用户画像实践
命周期相对好判定;另一方面消费单价较低,用户决策时间短、随
意性大。
3. 场景驱动:场景是特定的时间、地点和人物的组合下的特定的消费
意图。不同的时间、地点,不同类型的用户的消费意图会有差异。
例如白领在写字楼中午的订单一般是工作餐,通常在营养、品质上
有一定的要求,且单价不能太高;而到了周末晚上的订单大多是夜
宵,追求口味且价格弹性较大。场景辨识越细致,越能了解用户的
消费意图,运营效果就越好。
4. 用户消费的地理位置相对固定,结合地理位置判断用户的消费意图
是外卖的一个特点。
外卖产品运营对画像技术的要求
如下图所示,我们大致可以把一个产品的运营分为用户获取和用户拓
展两个阶段。在用户获取阶段,用户因为自然原因或一些营销事件(例如
广告、社交媒体传播)产生对外卖的注意,进而产生了兴趣,并在合适的
时机下完成首购,从而成为外卖新客。在这一阶段,运营的重点是提高效
7
InfoQ中文站
率,通过一些个性化的营销和广告手段,吸引到真正有潜在需求的用户,
并刺激其转化。在用户完成转化后,接下来的运营重点是拓展用户价值。
这里有两个问题:第一是提升用户价值,具体而言就是提升用户的单均价
和消费频次,从而提升用户的 LTV(life-time value)。基本手段包括交
叉销售(新品类的推荐)、向上销售(优质高价供给的推荐)以及重复购
买(优惠、红包刺激重复下单以及优质供给的推荐带来下单频次的提升);
第二个问题是用户的留存,通过提升用户总体体验以及在用户有流失倾向
时通过促销和优惠将用户留在外卖平台。
所以用户所处的体验阶段不同,运营的侧重点也需要有所不同。而用
户画像作为运营的支撑技术,需要提供相应的用户刻画以满足运营需求。
根据上图的营销链条,从支撑运营的角度,除去提供常规的用户基础属性
(例如年龄、性别、职业、婚育状况等)以及用户偏好之外,还需要考虑
这么几个问题:1)什么样的用户会成为外卖平台的顾客(新客识别);2)
用户所处生命周期的判断,用户是否可能从平台流失(流失预警);3)
用户处于什么样的消费场景(场景识别)。后面“外卖 O2O 的用户画像实
践”一节中,我们会介绍针对这三个问题的一些实践。
外卖画像系统架构
下图是我们画像服务的架构:数据源包括基础日志、商家数据和订单
数据。数据完成处理后存放在一系列主题表中,再导入 kv 存储,给下游
业务端提供在线服务。同时我们会对整个业务流程实施监控。主要分为两
部分,第一部分是对数据处理流程的监控,利用用内部自研的数据治理平
台,监控每天各主题表产生的时间、数据量以及数据分布是否有异常。第
二部分是对服务的监控。目前画像系统支持的下游服务包括:广告、排序、
8
架构师特刊:用户画像实践