京东大数据技术白皮书
京东大数据平台部出品
顾问:
张晨 裴健 翁志
主要作者(排名不分先后):
赵国梁、刘荣明、李冬峰、冯玉敏、滕永铮、王哲涵
王永亮、王文生、李双义、刘业辉、白贤锋、王威
焦文健、张晓鑫、赵鹏、纪鸿焘、乔超、吴怡然
欢迎关注京东大数据微信公众号及京东技术公众号
京东大数据技术白皮书
目 录
序言 ..................................................................................................................... 3
前言 ..................................................................................................................... 5
1 京东大数据的发展历程 ................................................................................. 8
2 京东大数据的技术体系 ................................................................................ 10
2.1 数据采集和预处理 .............................................................................. 10
2.2 流量数据采集 ..................................................................................... 13
2.3 数据存储体系 ..................................................................................... 22
2.4 离线计算环境 ..................................................................................... 34
2.5 实时计算环境 ..................................................................................... 37
2.6 机器学习环境 ..................................................................................... 40
2.7 任务管理和调度 .................................................................................. 43
2.8 资源监控和运维 .................................................................................. 49
3 京东大数据的数据管理 ................................................................................ 54
3.1 数据架构设计 ..................................................................................... 55
3.2 数据资产管理 ..................................................................................... 57
3.3 统一指标体系 ..................................................................................... 65
3.4 数据安全管理 ..................................................................................... 66
3.5 数据服务管理 ..................................................................................... 68
4 京东大数据的数据产品 ................................................................................ 75
4.1 京东商智 ............................................................................................. 75
4.2 智能营销 ............................................................................................. 76
~ 1 ~
京东大数据技术白皮书
4.3 数据管家 ............................................................................................. 77
4.4 祖冲之 ................................................................................................ 78
5 京东大数据的应用场景 ................................................................................ 80
5.1 营销领域 ............................................................................................. 80
5.2 物流领域 ............................................................................................. 81
5.3 供应链领域 ......................................................................................... 82
5.4 智能零售 ............................................................................................. 85
5.5 金融业务创新 ..................................................................................... 86
5.6 时尚创新 ............................................................................................. 88
5.7 人工智能 ............................................................................................. 89
6 京东大数据的合作生态 ................................................................................ 93
7 京东大数据的特点........................................................................................ 95
7.1 高可用和高性能 .................................................................................. 95
7.2 一站式服务平台 .................................................................................. 98
7.3 可靠的安全保障 .................................................................................. 99
8 京东大数据展望 ......................................................................................... 103
8.1 融合统一 ........................................................................................... 103
8.2 开放合作 ........................................................................................... 109
8.3 技术前瞻 ........................................................................................... 110
结语 .................................................................................................................. 117
参考文献 ........................................................................................................... 118
~ 2 ~
京东大数据技术白皮书
序言
众所周知,大数据是企业的基本生产资料,数据信息是企业
宝贵的资产。不同于其他资产,数据资产主要在企业运营过程中
产生,较易获取,但要持续积累、沉淀和做好管理却并不容易,
这是一项长期且系统性的工程。未经“雕琢”的数据是一组无序、
混乱的数字,并不能给企业带来何种价值,从庞杂晦涩的数据中
挖掘出“宝藏”充满着挑战,这需要将业务、技术与管理三者相
互融合起来进行创新。
京东作为一家业内领先的互联网科技公司,完整的产业链条
带来了价值可沽的海量大数据,丰富的业务场景也为技术发展提
供了最佳创新土壤。从认知、探索到今天京东技术上的百花齐放,
我们经历了最为艰苦的创新和付出。业务的复杂与多元化,数据
的飞速增长,给我们带来了很多棘手问题,但也使得大数据平台
拥有更强大的能力,形成了一套完整的技术体系和有效的数据管
理方法,并在实践中得以验证和夯实。
京东大数据平台作为京东集团的数据中台,支撑了京东无界
零售的数据运营和创新。《京东大数据技术白皮书》总结了大数
据技术在京东的落地和成长,分享了大数据技术体系和管理架构,
阐述了大数据在京东的典型业务应用场景,并对大数据的技术方
向进行了展望,是一次对京东大数据平台的最全面解读,希望我
们的实践和思考能给同行以启发和参考,我们期待和业界一起推
~ 3 ~
京东大数据技术白皮书
动国内大数据产业的进步和发展。
京东集团首席技术官
张晨
~ 4 ~
京东大数据技术白皮书
前言
大数据概念近年来受到高度关注,大数据在各个行业的应用
及其带来的影响也引起越来越多的讨论。大数据正在从单纯的技
术概念向实际部署应用转变;从少数领域向众多领域渗透;从企
业内部向各产业与公共服务方向扩展。目前,无论国内还是国外,
大数据技术都在经历前所未有的快速演变,以满足各种应用的需
求。
我国已将大数据发展确定为国家战略,强调要瞄准世界科技
前沿,集中优势资源突破大数据核心技术,加快构建自主可控的
大数据产业链、价值链和生态系统。大数据产业在国内发展得如
火如荼,据统计,2016 年大数据产业规模达 14500 亿元,2017 年
达 19570 亿元,到 2020 年将达到 5 万亿元。大数据技术已经在如
电子商务、政务、民生、金融、工业、医疗等多个领域中广泛应
用。
从国内的大数据技术和行业应用发展来看,大数据技术的基
础架构技术已日趋成熟,大数据领域由技术创新驱动转向应用创
新驱动的趋势开始显现,但更多的传统企业在如何建设大数据平
台,如何利用大数据来驱动企业业务发展上仍然缺乏经验,这在
一定程度上制约了大数据技术的大规模产业应用。
京东拥有全渠道零售和端到端的高质量大数据,包含了用户
的浏览和消费行为、商品制造和销售、物流仓储配送以及客服与
~ 5 ~
京东大数据技术白皮书
售后等丰富完整的信息。同时,京东业务中包含有大量丰富的大
数据应用场景,是大数据实践的最佳场所。早在 2010 年,京东集
团就启动了大数据领域的研发和应用探索工作,经过八年来的持
续投入,京东大数据平台无论从规模、技术先进性,还是体系的
完整性等方面均已达到国内一流水平。作为支撑公司数据运营的
重要阵地,目前已拥有集群规模 40000+服务器,数据规模达
800PB+,每日的 JOB 数 100 万+,业务表 900 万+,每日的离线
数据日处理量 30PB+,单集群规模达到 7000+台,实时计算每天
消费的数据记录近万亿条。
京东大数据平台建设了完整的技术体系,包括离线计算、实
时计算和机器学习平台,可以满足多种复杂应用场景的计算任务。
元数据管理、数据质量管理、任务调度、数据开发工具、流程中
心等构成了全面的数据运营工具。分析师、指南针等数据应用产
品提供了便利的数据分析功能,以及敏感数据保护、数据权限控
制等策略方案,能够最大程度地保护数据资产的安全。
京东大数据在驱动企业业务增长,提升运营效率,为客户提
供个性化、高品质产品及服务上发挥了重要作用。利用大数据分
析和挖掘,京东打造了个性化商城,自主研发了智能门店解决方
案,打造了智能供应链体系,提高了物流配送的效率,实现了知
人、知货、知场景的购物体验。京东大数据的应用已渗透到了业
务的各个环节。
近几年,京东大数据承担了包括大数据和人工智能领域在内
~ 6 ~