logo资料库

BUPT大数据技术导论期末复习提纲.pdf

第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
资料共24页,剩余部分请下载后查看
大数据期末复习 2019年12月23日 10:19 大数据期末提纲 选择 15-20 填空 10 简答30-40 论述 20-30 第一章 大数据带来的思维转变 全样本而非抽样 效率而非精准 相关而非因果(尿布啤酒) 大数据特征 量大(volume)——超过常规计算机存储空间,列式存储 快速化(velocity)——数据产生到小号时间窗口小,决策时间小 多样化(variety)——15结构化 85非结构化数据 价值密度低(value)——价值密度低 整体价值高 屏幕剪辑的捕获时间: 2019/12/23 10:20 大数据产生阶段 运营式系统阶段——伴随运营活动产生 ,呼叫记录 被动产生 用户原创内容阶段——微博博客 主动产生 感知式系统阶段——VR AR 屏幕剪辑的捕获时间: 2019/12/23 10:21 科学研究四范式 实验 理论 计算 数据探索型 屏幕剪辑的捕获时间: 2019/12/23 10:22 大数据计算模式 批处理 流计算 图计算 查询分析计算 分区 大数据 的第 1 页
屏幕剪辑的捕获时间: 2019/12/23 10:22 企业级大数据技术框架 数据源(互联网)——数据收集层(etc 提取转换加载)——数据存储层(分布式文件系统hdfs hbase)——资源管理与服务协调(yarn zookeeper)——计 算引擎——数据分析(传统hive 新的impla)——数据可视化 屏幕剪辑的捕获时间: 2019/12/23 10:24 数据源特点: 分布式 异构性 多样化 流式产生 收集系统特点: 扩展(横向扩展) 可靠 安全 低延迟(与流式产生适应) 屏幕剪辑的捕获时间: 2019/12/23 10:25 数据存储层特点: 扩展性 容错性 存储模型 屏幕剪辑的捕获时间: 2019/12/23 10:26 引入资源管理服务协调层优点: 资源利用率高 运维成本低 数据共享 分区 大数据 的第 2 页
屏幕剪辑的捕获时间: 2019/12/23 10:26 计算引擎层分类: 批处理 (分钟小时天) 交互式处理(s sql查询) 实时处理(s级以内) 屏幕剪辑的捕获时间: 2019/12/23 10:27 数据分析层 impala 屏幕剪辑的捕获时间: 2019/12/23 10:28 数据可视化层: 屏幕剪辑的捕获时间: 2019/12/23 10:28 google大数据技术栈: 大致了解其中不同层组件对应 屏幕剪辑的捕获时间: 2019/12/23 10:29 Hadoop和Spark大数据技术栈(补) 分区 大数据 的第 3 页
屏幕剪辑的捕获时间: 2019/12/23 10:31 大数据架构——lambda架构 将批处理和流失处理结合起来,达到比价好的效果 屏幕剪辑的捕获时间: 2019/12/23 10:35 大数据的收集: 关系型数据收集:Sqoop 非关系型数据收集:Flume flume大数据收集系统设计动机: 数据源种类多 物理分布再不同机器上 流式不间断产生 对可靠性有要求 屏幕剪辑的捕获时间: 2019/12/23 10:38 Flume基本构成: 一系列Agent完成 屏幕剪辑的捕获时间: 2019/12/23 10:40 Flume Agent基本构成: Source:负责接收Event的组件,从client接收数据 写入多个channel channel:缓冲区 暂存source写入的event 直到被sink发送出去 sink:从channel中读取发送给下一个agent flume是以agent的方式将源送到目的 sink client source在消息系统、队列中较为通用的架构 分区 大数据 的第 4 页
屏幕剪辑的捕获时间: 2019/12/23 10:42 flume拓扑架构: 多路合并 多路复用 多路合并: 屏幕剪辑的捕获时间: 2019/12/23 10:46 多路复用 屏幕剪辑的捕获时间: 2019/12/23 10:48 第二章 kafka重要——消息队列中间件设计动机: 生产者和消费者耦合度过高——增加消费者或者生产者都需要改变、 速率不对等——、大量兵法网络 对消费者不够友好 屏幕剪辑的捕获时间: 2019/12/23 10:49 Flume和kafka区别(补充): 屏幕剪辑的捕获时间: 2019/12/23 10:52 分区 大数据 的第 5 页
Kafka基本架构: consumer broker producer 屏幕剪辑的捕获时间: 2019/12/23 10:53 采用了push pull架构 producer push consumer pull 减轻了push对consumer对压力 consumer自己维护offset 缓解broker压力 使之更加轻量级 屏幕剪辑的捕获时间: 2019/12/23 10:54 Kafka关键技术点: 数据多副本 ,达到容错的目的 采用了强一致性的数据复制策略, 负载均衡实际上是对leader partition的负载均衡 屏幕剪辑的捕获时间: 2019/12/23 11:05 持久化机制 屏幕剪辑的捕获时间: 2019/12/23 11:06 分区 大数据 的第 6 页
屏幕剪辑的捕获时间: 2019/12/29 16:32 网页爬虫策略、更新策略: 宽度优先策略、反向连接数策略、PartialPageRankvn、 OPIC、大站优先策略 屏幕剪辑的捕获时间: 2019/12/29 16:35 屏幕剪辑的捕获时间: 2019/12/29 16:35 屏幕剪辑的捕获时间: 2019/12/23 11:11 数据序列化: 数据序列化框架: Thrift Protobuf Avro 文件存储格式: 行式存——文本 textfile二进制sequencefile 列式存储——orc parquet carbon data 了解有哪几种格式即可 分区 大数据 的第 7 页
行式存储和列式存储的优缺点 应用场景: 屏幕剪辑的捕获时间: 2019/12/23 11:17 第三章 分布式文件系统(重要) 纵向扩展和横向扩展 各自的好处和应用场景 屏幕剪辑的捕获时间: 2019/12/29 16:38 文件级别的分布式系统 和块级别的分布式系统对比 : 文件级别:难以负载均衡 难以并行处理 块级别:将大文件平均分成大小一致的小文件 块级别的文件系统 屏幕剪辑的捕获时间: 2019/12/23 11:19 HDFS基本架构(块级别的分布式文件系统): 采用了主从结构 主节点namenode 负责管理所有元信息和datenode 块级别的分布式系统,解决复杂均衡问题: master:负载存储和管理元信息,包括整个文件系统的目录树 slave:存储实际的数据块,与master维持心跳,汇报自身健康和负载 client:通过客户端与master和slave交互完成文件系统的管理和文件读写 分区 大数据 的第 8 页
分享到:
收藏