大数据期末复习
2019年12月23日
10:19
大数据期末提纲
选择 15-20 填空 10 简答30-40 论述 20-30
第一章
大数据带来的思维转变
全样本而非抽样 效率而非精准 相关而非因果(尿布啤酒)
大数据特征
量大(volume)——超过常规计算机存储空间,列式存储
快速化(velocity)——数据产生到小号时间窗口小,决策时间小
多样化(variety)——15结构化 85非结构化数据
价值密度低(value)——价值密度低 整体价值高
屏幕剪辑的捕获时间: 2019/12/23 10:20
大数据产生阶段
运营式系统阶段——伴随运营活动产生 ,呼叫记录 被动产生
用户原创内容阶段——微博博客 主动产生
感知式系统阶段——VR AR
屏幕剪辑的捕获时间: 2019/12/23 10:21
科学研究四范式
实验 理论 计算 数据探索型
屏幕剪辑的捕获时间: 2019/12/23 10:22
大数据计算模式
批处理 流计算 图计算 查询分析计算
分区 大数据 的第 1 页
屏幕剪辑的捕获时间: 2019/12/23 10:22
企业级大数据技术框架
数据源(互联网)——数据收集层(etc 提取转换加载)——数据存储层(分布式文件系统hdfs hbase)——资源管理与服务协调(yarn zookeeper)——计
算引擎——数据分析(传统hive 新的impla)——数据可视化
屏幕剪辑的捕获时间: 2019/12/23 10:24
数据源特点:
分布式 异构性 多样化 流式产生
收集系统特点:
扩展(横向扩展) 可靠 安全 低延迟(与流式产生适应)
屏幕剪辑的捕获时间: 2019/12/23 10:25
数据存储层特点:
扩展性 容错性 存储模型
屏幕剪辑的捕获时间: 2019/12/23 10:26
引入资源管理服务协调层优点:
资源利用率高 运维成本低 数据共享
分区 大数据 的第 2 页
屏幕剪辑的捕获时间: 2019/12/23 10:26
计算引擎层分类:
批处理 (分钟小时天) 交互式处理(s sql查询) 实时处理(s级以内)
屏幕剪辑的捕获时间: 2019/12/23 10:27
数据分析层
impala
屏幕剪辑的捕获时间: 2019/12/23 10:28
数据可视化层:
屏幕剪辑的捕获时间: 2019/12/23 10:28
google大数据技术栈:
大致了解其中不同层组件对应
屏幕剪辑的捕获时间: 2019/12/23 10:29
Hadoop和Spark大数据技术栈(补)
分区 大数据 的第 3 页
屏幕剪辑的捕获时间: 2019/12/23 10:31
大数据架构——lambda架构
将批处理和流失处理结合起来,达到比价好的效果
屏幕剪辑的捕获时间: 2019/12/23 10:35
大数据的收集:
关系型数据收集:Sqoop
非关系型数据收集:Flume
flume大数据收集系统设计动机:
数据源种类多 物理分布再不同机器上 流式不间断产生 对可靠性有要求
屏幕剪辑的捕获时间: 2019/12/23 10:38
Flume基本构成:
一系列Agent完成
屏幕剪辑的捕获时间: 2019/12/23 10:40
Flume Agent基本构成:
Source:负责接收Event的组件,从client接收数据 写入多个channel
channel:缓冲区 暂存source写入的event 直到被sink发送出去
sink:从channel中读取发送给下一个agent
flume是以agent的方式将源送到目的 sink client source在消息系统、队列中较为通用的架构
分区 大数据 的第 4 页
屏幕剪辑的捕获时间: 2019/12/23 10:42
flume拓扑架构:
多路合并 多路复用
多路合并:
屏幕剪辑的捕获时间: 2019/12/23 10:46
多路复用
屏幕剪辑的捕获时间: 2019/12/23 10:48
第二章
kafka重要——消息队列中间件设计动机:
生产者和消费者耦合度过高——增加消费者或者生产者都需要改变、
速率不对等——、大量兵法网络
对消费者不够友好
屏幕剪辑的捕获时间: 2019/12/23 10:49
Flume和kafka区别(补充):
屏幕剪辑的捕获时间: 2019/12/23 10:52
分区 大数据 的第 5 页
Kafka基本架构:
consumer broker producer
屏幕剪辑的捕获时间: 2019/12/23 10:53
采用了push pull架构 producer push consumer pull
减轻了push对consumer对压力
consumer自己维护offset 缓解broker压力 使之更加轻量级
屏幕剪辑的捕获时间: 2019/12/23 10:54
Kafka关键技术点:
数据多副本 ,达到容错的目的
采用了强一致性的数据复制策略,
负载均衡实际上是对leader partition的负载均衡
屏幕剪辑的捕获时间: 2019/12/23 11:05
持久化机制
屏幕剪辑的捕获时间: 2019/12/23 11:06
分区 大数据 的第 6 页
屏幕剪辑的捕获时间: 2019/12/29 16:32
网页爬虫策略、更新策略:
宽度优先策略、反向连接数策略、PartialPageRankvn、 OPIC、大站优先策略
屏幕剪辑的捕获时间: 2019/12/29 16:35
屏幕剪辑的捕获时间: 2019/12/29 16:35
屏幕剪辑的捕获时间: 2019/12/23 11:11
数据序列化:
数据序列化框架:
Thrift Protobuf Avro
文件存储格式:
行式存——文本 textfile二进制sequencefile
列式存储——orc parquet carbon data 了解有哪几种格式即可
分区 大数据 的第 7 页
行式存储和列式存储的优缺点 应用场景:
屏幕剪辑的捕获时间: 2019/12/23 11:17
第三章
分布式文件系统(重要)
纵向扩展和横向扩展 各自的好处和应用场景
屏幕剪辑的捕获时间: 2019/12/29 16:38
文件级别的分布式系统 和块级别的分布式系统对比 :
文件级别:难以负载均衡 难以并行处理
块级别:将大文件平均分成大小一致的小文件
块级别的文件系统
屏幕剪辑的捕获时间: 2019/12/23 11:19
HDFS基本架构(块级别的分布式文件系统):
采用了主从结构 主节点namenode 负责管理所有元信息和datenode
块级别的分布式系统,解决复杂均衡问题:
master:负载存储和管理元信息,包括整个文件系统的目录树
slave:存储实际的数据块,与master维持心跳,汇报自身健康和负载
client:通过客户端与master和slave交互完成文件系统的管理和文件读写
分区 大数据 的第 8 页