0
网易猛犸大数据平台
目录
1. 猛犸大数据平台 ..................................................................................................................... 2
2. 产品核心功能 ......................................................................................................................... 4
2.1 猛犸大数据开发套件 ...................................................................................................... 4
2.2 调度系统 ........................................................................................................................... 7
2.3 数据安全 ......................................................................................................................... 11
2.4 平台运维与监控 ............................................................................................................ 12
2.5 数据可靠性 .................................................................................................................... 13
3. 基于猛犸的大数据应用建设方案 ...................................................................................... 14
4. 技术规格 ................................................................................................................................ 16
5. 组件版本 ................................................................................................................................ 19
1
网易猛犸大数据平台
1. 猛犸大数据平台
猛犸大数据平台,网易大数据实践经验积累,一站式大数据应用开发和数据管理
平台。猛犸大数据平台主要分为大数据开发套件和 Hadoop 发行版两部分。
猛犸大数据总体架构图
大数据开发套件主要包含数据开发、任务运维、自助分析、数据管理、项目管理
及多租户管理等。大数据开发套件将数据开发、数据分析、数据 ETL 等数据科学工作
通过工作流的方式有效地串联起来,提高了数据开发工程师和数据分析工程师的工作
效率。
2
网易猛犸大数据平台
Hadoop 发行版涵盖了网易大数据所有底层平台组件,包括自研组件、基于开源
改造的组件。丰富而全面的组件,提供完善的平台能力,使其能轻易地构建不同领域
的解决方案,满足不同类型的业务需求。
敏捷易用
基于业务场景设计的用户操作界面提高了系统的易用性,结束了平台命令行运维
的繁琐状态。数据开发工程师和数据分析师通过简单拖拽和表单填写即可完成数据科
学相关工作。
成熟稳定
持续内部需求驱动帮助打磨平台,网易互联网各业务验证。同时,网易杭研院成
熟的 QA 体系为猛犸大数据平台保驾护航。
安全可靠
猛犸平台提供多租户支持,不同租户之间相互隔离。底层使用 Kerberos 认证,实
现了数据的安全性和隔离性。除了认证系统,利用 Ranger 实现了细粒度权限控制,
保证了各个租户只能查看授权访问的库、表或字段。此外,平台提供审计功能,通过
对用户平台行为的记录、分析和汇报,用来帮助事后生成合规报告、事故追根溯源,
提高平台安全性。
3
网易猛犸大数据平台
2. 产品核心功能
2.1 猛犸大数据开发套件
猛犸大数据开发套件提供可视化界面,用户可以进行数据开发、任务运维、自助
分析、数据管理及项目管理。大数据开发套件降低了大数据技术门槛,帮助企业快速
落地大数据项目。
网易猛犸开发套件
数据开发
数据开发模块提供数据库传输、SQL、Spark、OLAP Cube、MapReduce 及 Script
各种类型任务的敏捷开发界面,任务开发者通过拖拽创建任务,方便地进行数据集成、
数据 ETL、数据分析等数据科学工作。以数据库传输为例,用户只需将“数据库传输”
组件拖拽到画布上并双击,通过下拉框选择和手动输入填写表单,快速完成数据传输
的任务开发。
此外,企业还能根据自身业务场景按需进行任务调度管理,用户可以设置任务的
执行顺序、优先级以及执行周期。针对任务失败的情况,设置重试次数、重试间隔及
4
网易猛犸大数据平台
报警规则。最后,任务产生的结果可以对接主流 BI 系统进行数据可视化分析,或者直
接回流到线上系统支撑辅助线上业务。
任务运维
任务运维模块包含可视化的任务管理和实例运维。
任务管理:用户可以查看当前产品线任务列表及各个任务的状态、创建人、修改
时间、最近执行时间及调度信息。针对单个任务,用户可以查看详情(包括修改历史、
执行历史及执行计划)、编辑任务或补数据。补数据可以对任务执行发生在过去一段
时间的调度。
实例运维:用户可以查看任务实例列表及各个实例的状态、运行方式、开始时间、
结束时间、运行时长、计划执行时间及提交人信息。此外,用户可以按照不同的维度
(开始时间、关键字、运行方式、状态及提交人)快速定位感兴趣的实例。针对单个
实例,用户可以查看详情、日志或重跑。
自助分析
自助分析提供交互式数据分析的 Notebook。单个 Notebook 切分成不同段落,
便于分析师使用多个段落同时进行交互式分析。除了交互式数据分析, 用户可以使用
自助分析进行历史数据查询和自助取数。
数据管理
数据管理模块包括元数据管理、数据源管理、权限设置及权限查看。通过主题视
图,企业可以实现数仓分层,用户可以根据主题快速定位感兴趣的表。
数据源管理提供登记关系型数据库数据源的入口。登记数据源后,数据开发工程
师可以将数据源的数据集成到猛犸平台,并做进一步的操作如数据 ETL 和数据分析。
目前支持的关系型数据库包括 MySQL、SQL Server、PostgreSQL、DB2 及 Oracle。
除了数据源登记,项目管理员可以修改、删除数据源或测试数据源连通性。
5
网易猛犸大数据平台
通过权限管理,项目管理员可以按照角色进行细粒度权限控制,并且针对某个角
色,授予库、表和列的不同权限(select、update、create、drop 和 alter 等)。此
外,用户可以查看各个角色的授权情况。
项目管理
为了满足现代企业多部门多集群的需求,项目管理提供创建项目、管理项目成员
管理审计项目活动等功能。针对单个项目,项目管理员可以进行管理集群用户、目录、
队列及资源。
6