BUPT大数据技术导论期末复习提纲.pdf

发布时间：2022-06-01 发布人：admin 分类：说明书资料大小：3.41M 资料格式：pdf 举报版权申诉

luoyang1999-13095199-大数据期末复习(final).pdf-第1页.png

第1页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第2页.png

第2页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第3页.png

第3页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第4页.png

第4页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第5页.png

第5页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第6页.png

第6页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第7页.png

第7页 / 共24页

luoyang1999-13095199-大数据期末复习(final).pdf-第8页.png

第8页 / 共24页

文本预览

大数据期末复习 2019年12月23日 10:19 大数据期末提纲选择 15-20 填空 10 简答30-40 论述 20-30 第一章大数据带来的思维转变全样本而非抽样效率而非精准相关而非因果（尿布啤酒）大数据特征量大（volume）——超过常规计算机存储空间，列式存储快速化（velocity）——数据产生到小号时间窗口小，决策时间小多样化（variety）——15结构化 85非结构化数据价值密度低（value）——价值密度低整体价值高屏幕剪辑的捕获时间: 2019/12/23 10:20 大数据产生阶段运营式系统阶段——伴随运营活动产生，呼叫记录被动产生用户原创内容阶段——微博博客主动产生感知式系统阶段——VR AR 屏幕剪辑的捕获时间: 2019/12/23 10:21 科学研究四范式实验理论计算数据探索型屏幕剪辑的捕获时间: 2019/12/23 10:22 大数据计算模式批处理流计算图计算查询分析计算分区大数据的第 1 页

屏幕剪辑的捕获时间: 2019/12/23 10:22 企业级大数据技术框架数据源（互联网）——数据收集层（etc 提取转换加载）——数据存储层（分布式文件系统hdfs hbase）——资源管理与服务协调（yarn zookeeper）——计算引擎——数据分析（传统hive 新的impla）——数据可视化屏幕剪辑的捕获时间: 2019/12/23 10:24 数据源特点：分布式异构性多样化流式产生收集系统特点：扩展（横向扩展）可靠安全低延迟（与流式产生适应）屏幕剪辑的捕获时间: 2019/12/23 10:25 数据存储层特点：扩展性容错性存储模型屏幕剪辑的捕获时间: 2019/12/23 10:26 引入资源管理服务协调层优点：资源利用率高运维成本低数据共享分区大数据的第 2 页

屏幕剪辑的捕获时间: 2019/12/23 10:26 计算引擎层分类：批处理（分钟小时天）交互式处理（s sql查询）实时处理（s级以内）屏幕剪辑的捕获时间: 2019/12/23 10:27 数据分析层 impala 屏幕剪辑的捕获时间: 2019/12/23 10:28 数据可视化层：屏幕剪辑的捕获时间: 2019/12/23 10:28 google大数据技术栈：大致了解其中不同层组件对应屏幕剪辑的捕获时间: 2019/12/23 10:29 Hadoop和Spark大数据技术栈（补）分区大数据的第 3 页

屏幕剪辑的捕获时间: 2019/12/23 10:31 大数据架构——lambda架构将批处理和流失处理结合起来，达到比价好的效果屏幕剪辑的捕获时间: 2019/12/23 10:35 大数据的收集：关系型数据收集：Sqoop 非关系型数据收集：Flume flume大数据收集系统设计动机：数据源种类多物理分布再不同机器上流式不间断产生对可靠性有要求屏幕剪辑的捕获时间: 2019/12/23 10:38 Flume基本构成：一系列Agent完成屏幕剪辑的捕获时间: 2019/12/23 10:40 Flume Agent基本构成： Source：负责接收Event的组件，从client接收数据写入多个channel channel：缓冲区暂存source写入的event 直到被sink发送出去 sink：从channel中读取发送给下一个agent flume是以agent的方式将源送到目的 sink client source在消息系统、队列中较为通用的架构分区大数据的第 4 页

屏幕剪辑的捕获时间: 2019/12/23 10:42 flume拓扑架构：多路合并多路复用多路合并：屏幕剪辑的捕获时间: 2019/12/23 10:46 多路复用屏幕剪辑的捕获时间: 2019/12/23 10:48 第二章 kafka重要——消息队列中间件设计动机：生产者和消费者耦合度过高——增加消费者或者生产者都需要改变、速率不对等——、大量兵法网络对消费者不够友好屏幕剪辑的捕获时间: 2019/12/23 10:49 Flume和kafka区别（补充）：屏幕剪辑的捕获时间: 2019/12/23 10:52 分区大数据的第 5 页

Kafka基本架构： consumer broker producer 屏幕剪辑的捕获时间: 2019/12/23 10:53 采用了push pull架构 producer push consumer pull 减轻了push对consumer对压力 consumer自己维护offset 缓解broker压力使之更加轻量级屏幕剪辑的捕获时间: 2019/12/23 10:54 Kafka关键技术点：数据多副本，达到容错的目的采用了强一致性的数据复制策略，负载均衡实际上是对leader partition的负载均衡屏幕剪辑的捕获时间: 2019/12/23 11:05 持久化机制屏幕剪辑的捕获时间: 2019/12/23 11:06 分区大数据的第 6 页

屏幕剪辑的捕获时间: 2019/12/29 16:32 网页爬虫策略、更新策略：宽度优先策略、反向连接数策略、PartialPageRankvn、 OPIC、大站优先策略屏幕剪辑的捕获时间: 2019/12/29 16:35 屏幕剪辑的捕获时间: 2019/12/29 16:35 屏幕剪辑的捕获时间: 2019/12/23 11:11 数据序列化：数据序列化框架： Thrift Protobuf Avro 文件存储格式：行式存——文本 textfile二进制sequencefile 列式存储——orc parquet carbon data 了解有哪几种格式即可分区大数据的第 7 页

行式存储和列式存储的优缺点应用场景：屏幕剪辑的捕获时间: 2019/12/23 11:17 第三章分布式文件系统（重要）纵向扩展和横向扩展各自的好处和应用场景屏幕剪辑的捕获时间: 2019/12/29 16:38 文件级别的分布式系统和块级别的分布式系统对比：文件级别：难以负载均衡难以并行处理块级别：将大文件平均分成大小一致的小文件块级别的文件系统屏幕剪辑的捕获时间: 2019/12/23 11:19 HDFS基本架构（块级别的分布式文件系统）：采用了主从结构主节点namenode 负责管理所有元信息和datenode 块级别的分布式系统，解决复杂均衡问题： master：负载存储和管理元信息，包括整个文件系统的目录树 slave：存储实际的数据块，与master维持心跳，汇报自身健康和负载 client：通过客户端与master和slave交互完成文件系统的管理和文件读写分区大数据的第 8 页

分享到：

赞收藏

资料库

BUPT大数据技术导论期末复习提纲.pdf

相关推荐

行业

热门标签

最新资料