第一章 认证体系介绍
阿里云认证、行业认证、专项认证
第二章 大数据简介
如何生产:移动互联网爆发、数据资产价值得到认可、存储和计算能力的发展
主要特征:体量大、类型多、有价值、变化快(真实、可视化)
数据分析流程:目的、收集、处理、分析、展现、分析报告
核心价值:侦查和预测(视频提到)
第三章 数加平台介绍
数加:阿里云大数据平台,包含了一系列的大数据产品及服务
计算引擎:离线计算(maxCompute)、流式计算(数据变化处理)(StreamCompute)、
在线计
算(AnalyticDB)
第四章 分析型数据库(AnalyticDB)
定义:是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)
云计算服务,可以在毫
秒级针对千亿级数据进行即时的多维分析透视和
业务探索
特点:高度的计算自由、极速的响应时间、简单的使用方式、丰富的特色功能
产品特点:分档的存储、自由的查询、智能的优化、方便的接口(mysql 协议)、分层的安全、
弹性多租户
OLAP:在线分析处理,分析为主
OLTP:在线业务系统,业务为主
MPP 数据库特点:私有资源、分布式存储、分布式计算、任务并行执行、share-nothing、横
向扩展
维度表组:自动产生、只有一个、数据量小,存在关联操作多、不能删除和修改,数据库删除时才会删除
普通表组:用户手动创建、可以有多个、数据量大,关联操作少、可以删除,修改表组信息
分区是为了解决单表数据过大
默认索引即智能索引,会根据列的字段类型、取值状况来自动创建索引。
聚集列可以改变物理存储位置,实现快速查询
表组特点:
表祖是数据物理分配的最小单元。分析型数据库由许多节点组成,数据是以表组为单位部署的。
同表组内的表才可以快速 hash join。使用 hash join,要保证要么是同表组中的表,要么是由维表参与,
因为维表可以和所有的表进行关联,不受表组的限制。
同一个表组内的表共享一些配置,如超时时长、副本数,不建议修改
建议同表组中的表一级分区表一致
维表特点:
维表必须放在维表组上,不用选表组
维表的大小有限制,表的数据量不能太大
维表不需要设置分区信息
维表可以和任何表进行关联,不受表组的限制
维表保存在每个节点上,同样大小的数据,维表会消耗掉更多存储资源
事实表特点:
普通表选择表祖时需要考虑后续操作中要关联到的其他事实表。
普通表的数据量不受限制,但是必须至少设置一级(Hash)分区。
多张普通表关联时,必须有 Hash Key(一级分区键)参加
普通表分为两类:离线批量更新表(Batch)和实时更新表(Realtime)
批量更新表如果需要增加加载数据,则必须设置为二级分区
批量更新表不支持指定主键
实时更新表可以直接 insert/delete 单条数据,适合业务系统直接写入
实时更新表不提供二级分区,因为天然支持增量
实时更新必须指定主键。
数据加载进表后,需要等待一定时间后才能看到
同一个表组中分区数一致,关联时效率会更高。
目标表不可以选实时更新表。
可以使用 SQL 语句模板,insert、select、delete、常见函数
数据类型:boolean、tinyint、smallint、int、bigint、float(m,d 不支持)、double(同上)、varchar、
date、timestamp(只支持精确到毫秒)、multivalue(特有)
多值列 multivalue:
可以存入 String 类型的多个值,分隔符默认为半角逗号,也可以创建表时进行配置
可以使用 in,contains 条件对该列的单个值进行查询
枚举查询后该列的每个值可像一个普通列一样进行各类操作,但是不允许在没有进行枚举查询时
对该列直接 select 或在 group by 中使用该列
第五章 MaxCompute
概念:由阿里云自主研发,提供针对 TB/PB 级数据、实时性要求不高的分布式处理能力,应用于数据分析、
挖掘、商业智能等领域。阿里巴巴的数据业务都运行在 MaxCompute 上
特点:分布式(分布式集群架构)、安全性(自动存储容错)、易用性(标准接口服务)、管理与授权(多
用户的管理协同)
对象:
Project 项目空间:所有对象都隶属于项目空间,计量计费及安全控制的单元
Table 表:所有的数据都存储在表里,支持表分区,支持依赖于表的视图(弱)
Partition 分区:上传时,手动创建分区并保证质量,使用 insert 数据时支持动态分区
分区:创建表时指定分区键,指定表内某几个字段作为分区列,数组值存储在最底层,使用数据时如果指
定了需要访问的分区名称,则只会读取相应的分区,避免全表扫描,提高处理效率,降低费用
任务 Task:基本计算单元,SQL 及 MR 都是通过任务完成的
实例 Instance:任务的一个具体实例,表示实际运行的 Task
沙箱 SandBox:按照安全策略限制程序行为的执行环境
不允许直接访问本地文件、不允许直接访问分布式文件系统、不允许 JNI 调用机制、Java 反射限制、
不允许起子进程执行 Linux 命令、不允许获取本地 IP 地址
数据类型:bigint(8 字节有符号整型)、string、boolean、double(8 字节双精度浮点数)、datetime
、Decimal(整数 36 位有效数字,小数 18 位有效数字)
架构:客户端(eclipse、clt、管理控制台(DMS)、dataide、intelij)、接入层、逻辑层(计算型交给调
度器,给计算层处理;非计算处理完后返回)、计算层
Tunnel 上传下载:
tunnel upload [options]
<[project.]table[/partition]> 数据上传
tunnel upload d:\test\all.txt yunxiang_01.t_test_all/gender=’male’
支持文件或目录(只一级目录)的上传、每一次上传只支持数据上传到一个表或表的一个分区
有分区的表一定要指定上传的分区
tunnel download [options]<[project.]table[/partition]>
tunnel download test_project.test_table/p1=”b1”,p2=”b2” log.txt(路径)
只支持下载到单个文件、每一次下载只支持一个表或者一个分区、有分区的表一定要指定下载的分区
参数:
-dbr 错误记录处理,缺省值为 false,即不能容忍任何错误记录
-h 文件是否包含列名信息,缺省不包含
-c 字符集,默认 utf8
-dfp 日期类型的格式,缺省为:yyyyMMddHHmmss
-mbr 最大错误记录数,缺省值为 1000
-rd 行分隔符
-fd 列分隔符
分隔符:
支持多个字符的列分隔符和行分隔符(fd 列分隔符 rd 行分隔符)
支持控制字符等不可见字符做分隔符(“&&”“||”)
列分隔符不能包含行分隔符
转义字符分隔符,在命令行模式下只支持\r,\n 和\t
DDL:crate/drop/table[if (not) exists] table name.....(建议不加 if not...)
alter table table_name rename to new_table_name
表的生命周期:MC 表中的数据,从最后一次更新时间算起,在经过指定的时间后没有变动,则此表将被 MC
自动回收(删除)。此指定时间就是该表的生命周期。
生命周期授权单位;days(天),只能指定正整数
生命周期只能指定表级的,不能指定分区级的
分区表和非分区表都可以指定生命周期
对于非分区表的生命周期,自最后一次数据被修改的时间开始计算,经过 days 天后数据仍未改动,
则此表将会被自动回收
对于分区表的生命周期,则根据各个分区的最后一次数据被修改的时间判断该分区是否会被回收。即
时所有分区都被删除,该表也不会被删除,依然存在
若建表时不指定生命周期,则该表不会根据生命周期规则被 MC 自动回收
快速建表:like、as
Create table AS Select..from table where...
Create table like ;
区别:as 可以带入数据,like 不能,as 不能带入生命周期、分区键信息、注释等,like 可以带入分
区键信息、注释等但是不能带入生命周期
DML:如果写 order by,一定要写 limit,表示最多返回多少条数据
不支持 value 的方式插入一行数据,支支持从另外一张表里选出一个数据插入
动态生成的分区值不可以为 null
多路输出:
from 表名 insert into table 表名。。。
Insert into table 表名。。。
表关联:只允许 and 连接的等值条件,最多支持 16 路 join 操作
Map join 可以操作大于小于 or 非等值条件表
内置函数:值函数、窗口函数、聚合函数、其他函数
concat(‘a’,null,’b’)=NULL 如果没有参数或者某个参数为 NULL,结果均返回 NULL
DCL:授权操作三要素:主体(角色)、客体(项目空间各种对象)、操作
主要动作包含授予(grant)、收回(revoke)、查看(show grants)
用户被移除后,用户的 ACL 授权仍被保留,添加后重新激活,maxCompute 目前不支持移除一个用户的
所有权限数据
set ProjectProtection=true 开启空间的数据保护机制后,无法将空间项目中的数据转移到项目空间外,
所有的数据只能在项目空间内部流动
第六章 Data IDE 开发套件
概念:阿里云数加重要的 Paas 平台产品。基于 MaxCompute 作为核心的计算、存储引擎,提供了海量数据
的离线加工分析、数据挖掘的能力。提供数据集成、数据开发、数据管理、数据治理、数据分享等
全方位的产品服务,提供全面托管的工作流服务,一站式开发管理的界面,帮助企业专注于数据价
值的挖掘和探索
特点:全面托管的调度、多种任务类型、可视化开发、监控告警
任务:对数据执行的操作,使用 0 个或 0 个以上的数据表作为输入,生成 1 一个或者多个数据
节点任务、工作流任务、内部任务
DataIDE 的实例可以提前生成,再去完成任务,Maxcompute 是执行任务时产生实例
任务提交到调度系统中后才会被执行
角色:开发人员只能创建发布包,不能执行发布操作,部署人员只部署
多环境:开发、测试、生产,至少包含开发和生产
数据管理:可进行组织内全局数据视图的查看、分权管理、元数据信息详情、数据生命周期管理、数据表/
资源/函数权限管理审批等操作
运维中心:包括运维大屏、任务列表、任务运维和智能监控四大模块,可以对线上任务进行运维和管理
创建项目时会自动生成一个数据源,也可以手动添加数据源
实例状态说明:运行成功 、未运行 、运行失败 、正在运行 、等待 、冻结
概述:支持海量数据在线分析,拖拽式操作、丰富的可视化效果,可以通过简单的操作完成数据分析、业
第七章 Quick BI
务数据探查
特点:支持多种数据源和可视化组件、海量数据实时分析和只能加速、灵活的报表集成和严密的安全权限、
低门槛上手和计算费用低(多快好省)
数据源:maxCompute、AnalyticDB、RDS、HybridDb、Mysql、sql Server、本地 CSV 文件、Excel 文件
维度操作:编辑、删除、克隆、层次结构创建、转化为度量、新建计算字段、维度类型切换
度量操作:编辑、删除、数字格式、位置位移、转化为维度、新建计算字段、默认聚合方式
当上传本地文件到 Quick BI 中展现时,数据被保存到了 Quick BI 自带的探索空间
报表类型:可以制作数据化报表、图形化报表
第八章 Data V
概述:是一款阿里云提供的数据可视化在线工具。通过拖拽式的操作,使用数据连接、可视化组件库、行
业设计模板库、多终端适配与发布运维等功能,让非专业人员也可以快速的将数据的价值通过视觉
进行传达
特点:多种精美模板、多种图表组件、多种数据源的接入、零门槛图形化设计界面、数据交互分析、多种
适配和发布方式、本地运行部署、支持二次开发、大屏拼接中控系统
发布:DataV 制作的大屏通过发布后的 url 可以把作品嵌入到企业已有的门户中去
可视化大屏:分成展示类、分析类、监控类等三类
QuickBI 与 DavaV 的关系:
QuickBI 通过自助服务可以让几万的阿里小二自己来做数据分析。
DavaV 通过标准模版可以让技术人员用很少的工作量就可以做出有冲击力展示大屏
分类:监督学习、无监督学习、半监督学习
第九章 机器学习
有监督学习算法:分类(贝叶斯、决策树、神经网络、KNN、RandomForest(基本单元是决策树))、回归
无监督学习算法:聚类(层次聚类、划分聚类(K-Means)、基于密度的聚类(DBSCAN))
PAI 是基于 MaxCompute 提供数据处理、建模、离线预测、在线预测等服务的大型机器学习平台
特点:上手简单、算法丰富、一站式体验、深度学习