logo资料库

用户画像建模实战.pdf

第1页 / 共47页
第2页 / 共47页
第3页 / 共47页
第4页 / 共47页
第5页 / 共47页
第6页 / 共47页
第7页 / 共47页
第8页 / 共47页
资料共47页,剩余部分请下载后查看
用户画像建模实践 讲师:watermelon www.hellobi.com 与数据爱好者共同成长
自我介绍 • 天善商业智能和大数据社区讲师 – watermelon • 数据开发工程师,曾为数据分析师。负责过爬虫、经营数据分析、用户画像建模等工 作。对指标体系建立、流量分析、画像建模开发有相应的总结方法论。 • 天善社区博客地址:https://ask.hellobi.com/blog/pythoncrawl • 天善社区 ID - watermelon • https://www.hellobi.com – 学习过程中有任何相关的问题都可以提到技术社区 版块。
目录 1. 用户画像是什么 2. 画像规划和数据架构 3. 数据指标体系 4. 标签开发和存储 5. 作业流程调度(ETL) 6. 作业性能调优 7. 画像产品形态 8. 用户画像应用
用户画像是什么—画像简介 用户画像的核心在于了解用户,画像是真实用户的虚拟代表,是建立在一系列真实数据之上的目标用户模型 • 用户画像,即用户信息标签化,通过收集用户社会属性、消费习惯、偏好特征等各个维度数据,进而对 用户或者产品特征属性的刻画,并对这些特征分析统计挖掘潜在价值信息,从而抽象出一个用户的信息 全貌; • 可看做是企业应用大数据的根基,是定向广告投放与个性化推荐的前置条件,为数据驱动运营奠定了基 础。如何从海量数据中挖掘出有价值的信息已经愈发重要。
用户画像是什么—主要模块 打通全流程,提供端到端的解决方案。以用户端的表单填写、消费、浏览、搜索等相关操作行为数据作为输入,通过数据建模、开发、产品化,帮助企业 认知、了解用户、客观了解自己的产品,输出到用户端进而提供个性化的产品、服务和营销方案 做好一套能真正赋能于业务,产生落地价值的用户画像绕不开下面的8个主要模块。本次分享也会涉及到下面的许多内容
用户画像是什么—标签类型 用户画像建模其实就是对用户进行打标签,从对用户打标签的方式来看,一般分为三种类型:1、基于统计类 的标签;2、基于规则类的标签、3、基于挖掘类的标签。下面我们介绍这三种类型标签的区别: 统计类标签:这类标签是最为基础也最为常见的标签类型,例如对于某个用户来说,他的性别、年龄、城市、星座、近7日 活跃时长、近7日活跃天数、近7日活跃次数等字段可以从用户注册数据、用户访问、消费类数据中统计得出。该类标签构成 了用户画像的基础; 规则类标签:该类标签基于用户行为及确定的规则产生。例如对平台上“消费活跃”用户这一口径的定义为近30天交易次数 >=2。在实际开发画像的过程中,由于运营人员对业务更为熟悉、而数据人员对数据的结构、分布、特征更为熟悉,因此规 则类标签的规则确定由运营人员和数据人员共同协商确定;(同时需要借助数据调研,这要是展开又可以说很多了….) 机器学习挖掘类标签:该类标签通过数据挖掘产生,应用在对用户的某些属性或某些行为进行预测判断。例如根据一个用户 的行为习惯判断该用户是男性还是女性,根据一个用户的消费习惯判断其对某商品的偏好程度。该类标签需要通过算法挖掘 产生。 在项目工程实践中,一般统计类和规则类的标签即可以满足应用需求,开发中占有较大比例。机器学习挖掘类 标签多用于预测场景,如判断用户性别是男是女,判断用户购买商品偏好、判断用户流失意向等。一般地机器学 习标签开发周期较长,耗费开发成本较大,因此其开发所占比例较小。
画像规划和数据架构——开发流程 第一阶段:目标解读 在建立用户画像前,首先需要明确用户画像服务于企业的对象,根据业务方需求,未来产品建设目标和用户画像分析之后预期效果; 第二阶段:任务分解与需求调研 经过第一阶段的需求调研和目标解读,我们已经明确了用户画像的服务对象与应用场景,接下来需要针对服务对象的需求侧重点,结合产品现有 业务体系和“数据字典”规约实体和标签之间的关联关系,明确分析纬度; 第三阶段:需求场景讨论与明确 在本阶段,数据运营人员需要根据前面与需求方的沟通结果,输出《产品用户画像需求文档》,在该文档中明确画像应用场景、最终开发出的标 签内容与应用方式 ,并就该份文档与需求方反复沟通确认无误。 第四阶段:应用场景与数据口径确认 经过第三个阶段明确了需求场景与最终实现的标签纬度、标签类型后,数据运营人员需要结合业务与数据仓库中已有的相关表,明确与各业务场 景相关的数据口径。在该阶段中,数据运营方需要输出《产品用户画像实施文档》,该文档需要明确应用场景、标签开发的模型、涉及到的数据库 与表,应用实施流程; 第五阶段:特征选取与模型数据落表 本阶段中数据分析挖掘人员需要根据前面明确的需求场景进行业务建模,写好HQL逻辑,将相应的模型逻辑写入临时表中,抽取数据校验是否符 合业务场景需求。 第六阶段:线下模型数据验收与测试 数据仓库团队的人员将相关数据落表后,设置定时调度任务,进行定期增量更新数据。数据运营人员需要验收数仓加工的HQL逻辑是否符合需求, 根据业务需求抽取查看表中数据范围是否在合理范围内,如果发现问题及时反馈给数据仓库人员调整代码逻辑和行为权重的数值。 第七阶段:线上模型发布与效果追踪 经过第六阶段,数据通过验收之后,就可以将数据接口给到搜索、或技术团队部署上线了。上线后通过对用户点击转化行为的持续追踪,调整优 化模型及相关权重配置。
画像规划和数据架构——数仓架构
分享到:
收藏