大数据期末复习总结.pdf-资料库

、HBase命 (1)Hadoop基 (2)HDFS、YARN、HBase、MapReduce基 (3)HDFS命 (4)实 (5)常 (6)HDFS Java API、HBase Java API、MapReduce编 Hadoop基查(只 Hadoop历 2004年，Google发《MapReduce： 2006年Google发《BigTable： 2006年，Yahoo!聘请Cutting将Nutch搜 Hadoop⽣障) 为Hadoop，Hadoop 以个Hadoop系的NoSQL数 HDFS： MapReduce：在HDFS上 HBase： Zookeeper：Hadoop组 Oozie： Pig： Hive： HDFS架含Pig Latin，的Workflow系对MapReduce的个MapReduce作供SQL语将SQL翻为MapReduce语 Hadoop三 HDFS——分 YARN——统含MapReduce、Spark、Flink多架MRv2(Hadoop 2.x)之 MapReduce——分于YARN之 HDFS/Hadoop Distributed File System 是Hadoop的 HDFS是 HDFS特存PB级，HDFS提与Map-Reduce集，HDFS允 HDFS局客观题础，如：⽣态环境、历史等本架构和原理令令验操作⻅故障排包含集群安装、运⾏故障，不包含⽹络配置故障和虚拟机本⾝故程础史表论⽂超⼤集群的简单数据处理》表论⽂结构化数据的分布式存储系统》索引擎中的存储和处理部分抽象成⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理，逐渐成为⾏业主流。态系统分布式存储，为整统提供数据存储功能并⾏计算框架构建据库件管理端可扩展统，协调多业执⾏包抽象将结构化的数据⽂件映射为数据表，提句，译句进⾏查询构：⼤基本组件：布式⽂件系统，⽤于数据存储⼀资源管理和调度系统，⽤于管理集群的计算资源并根据计算框架的需求进⾏调度，⽀持包种计算框后的新特性布式计算框架，运⾏上分布式⽂件系统的实现。它的设计⽬标是存储海量的数据，并为分布在⽹络中的⼤量客⼾端提供数据访问。⾼容错性的，可以部署在低成本的硬件之上供⾼吞吐量地对应⽤程序数据访问。性能够保的数据量，将数据散布在⼤量的计算机（节点）上，⽀持更⼤的⽂件使⽤数据备份的⽅法解决⽂件存储的可靠性，如果集群中单个节点故障则启⽤备份很好的成，为减小计算时的数据交互许数据在本地计算限性

⽤Hive查 HDFS架个Hadoop被为NameNode（（Node）和DataNode（个Block（的DataNode中认64MB， DataNode中 Namenode HDFS为⽤NameNode存在DataNode，由NameNode实块(Block)存些DataNode中的DataNode定向NameNode发到DataNode的；NameNode会的DataNode中，NameNode将块(Block)备的DataNode中 Namenode的在NameNode中：meta data，：fsimage，：edits，HDFS⽂ NameNode元取fsimage和edits⾄ 1、 2、client向NameNode发 3、NameNode接 4、 5、⽤Secondary NameNode，到edits，据meta data 向client返志edits 到fsimage中（CheckPoint过 HDFS数 1.⽤ 2.上求Hadoop客到Hadoop客省64mb，hadoop2.x缺 3.NameNode向Hadoop客 4.Hadoop客将block写回block的的DataNode 省128mb)，求NameNode申块(block)边时(hadoop 1.x HDFS数 1.⽤ 2.Hadoop客 3.NameNode查 4.Hadoop客 Hadoop配求Hadoop客向NameNode发询meta data并的block位向DataNode请求block数有block后针对⾼速流式读取进⾏优化，查询性能低下（可利询）⼀次写⼊多次读取，不⽀持并发写⼊，并发读取性能很⾼不⽀持⽂件修改不⽀持缓存，每次读取⽂件须从硬盘上重新读取，当然对于⼤⽂件顺序读取性能影响不⼤不适合存储小⽂件构主从模式整构建在集群上，集群由各个节点构成将集群中的节点分管理者）⼯作者）⽂件被拆分为多块）放到不同，每个块默同⼀个块会备份到多个存储主从架构，⽂件分块存储并现管理使储元数据信息，保存⽂件名以及⽂件的储在哪每个存活时送⼼跳信息，如果未收⼼跳认定其已失效，不再向其派发任何⽂件读请求将失效的份到其他存活元数据管理机制整个系统的元数据都保存内存元数据⽤于元数据查询硬盘元数据镜像⽂件持久化存储元数据数据操作⽇志件增删会造成元数据更改，将更改记录可运算出元数据数据管理过程系统启动时，读内存，形成内存元数起数据增删查请求收到请求后，在内存元数据中执⾏增删查操作，并回操作结果如果是增删操作，则同时记录数据操作⽇使在适当的时机将操作⽇志合并程）据写⼊机制⼾客⼾端请⼾端，并执⾏⽂件上传传的⽂件写⼊⼾端的临时⽬录中，每当写⼊的数据量越过界缺请请数据块⼾端返位置⼾端直接⼊指定据读取机制⼾客⼾端请⼾端，请求返回指定⽂件⼾端起读⽂件请求返回⽂件对应置⼾端直接据，获取到所合并成⽂件置⽂件

core-site.xml Hadoop系 hdfs-site.xml HDFS属 mapred-site.xml yarn-site.xml YARN基 workers 定 MapReduce计有DataNode地 core-site.xml 址--> fs.defaultFS ⼩--> hdfs-site.xml 录--> 录--> dfs.namenode.name.dir block保录--> 录- 量--> dfs.http.address HDFS的Web服 IP地址:50070 ⽰HDFS服统的通⽤关键属性性配置算框架的属性配置本属性义所址务地时⽬冲⼤元据⽬开设储⽬据⽬开设储⽬的副务地址，显务状态和⽇值

dfs.webhdfs.enabled 开HDFS Web服是 true dfs.block.size block⼤ hadoop2.X dfs.datanode.du.reserved 指 dfs.namenode.edits.dir 单为NameNode指 128Mb (硬 edits )上间( 20，于HDFS 20%的间) 为%， 0 mapred-site.xml ⽰MR mapreduce.framework.name yarn yarn-site.xml yarn.resourcemanager.address 向RM汇务--> 跳 192.168.0.211:8031 yarn.resourcemanager.webapp.address 量--> 1024 否打务值⼩，单为节，储盘不⽤件储的间量，单值设⼀的闲保剩储独件的⽬录，⽬录⽤开⾏服务地过该地址报、领任理地内

HDFS JAVA API HDFS Java API是HDFS命 YARN Yarn架 1.YARN主 Master —— ResourceManager Slave —— NodeManager 2.⼀ ResourceManager——接为AM分个AM 问HDFS 从HDFS读到HDFS 定NM节动AM(ApplicationMaster)，在scheduler中 3.⼆ ApplicationMaster——运 Container，在Container中 YARN重在NM上向RM请⾏Application，收RM的控Application的在NM上收Client请度scheduler Resource Manager 接执 NodeManager 执执 Container(容 YARN的 Application和ApplicationMaster均务Job 度ApplicationMaster 器) 的Job以Application的，CPU、⽤给Container，由Container提在Container中在ResourceManager中的Application 理YARN中 ApplicationManager 运管 ApplicationMaster 管每接通个Application都收Container的为个Application，在NodeManager的Container中个ApplicationMaster负为Container请向ResourceManager汇报Application进远不业(Job) ⽤每作多⾄YARN的由client提个Application( MapReduce) ⾄ResourceManager 个Application(Spark)，期Application(Apache Slider)，令的抽象，⽀持远程访应⽤程序能够以和读写本地数据系统相同的⽅式取数据，或者将数据写⼊构从架构的构成：集群中各个节点的管理者集群中单个节点的代理级调度收作业，在指点上启执⾏调度算法配资源，管理各级调度⾏，求资源，接资源分配，启动执并监执⾏状态要组件求⾏⼀级调⾏作业任⾏⼆级调资源表⽰模型内存、⽹络等资源分配供给其中的任务需要计算资源，均运⾏⼾提交⽅式得以执⾏⾏所有理⼀运⾏⼀责管理进度汇报，求资源过⼼跳度和资源状态什么主从之间通过⼼跳通信？如果不通过定时的⼼跳，那么我永知道是因为没有状况导致不通信还是因为故障导致没有通信。作⼾提交⼀次计算任务，交个作业对应⼀业的每个⼯作流对应⼀效率更⾼⽤⼾共享⼀个⻓系统响应更快

个AppAttempt⽤业a的过AManager将的startContainer⽅动AMaster 业a启业a的AMaster分到NM1 在NM1中业a启动Container0(作的0号器) YARN⼯业a(Job) 器(scheduler)中，RM通 1 Client向RM提 2 RM在 3 NM1向RM提 4 RM通过RPC调 5 NM1在Container0中 6 AMaster向AManager发 7 RM将AMaster的 NM分的Container(资⽤NM1中⼊scheduler资以Container的由scheduler分配)，向RM发的Container 起RPC调的NM发回AManager已 8 AMaster向RM发 9 RM返 10 AMaster向 11 Container启 Application中Container的 12 AMaster为Container向RM请 13 作，AMaster向RM申的Container 业Application，向AMaster汇，AMaster负 Yarn调度AM 器) 器) 器) 的container实的ResourceManager管器)执过Scheduler(调 FIFO Scheduler (先 Capacity Scheduler (容 Fair Scheduler (公 YARN中 RM作 RM通 Scheduler⽀调调⾏Container的 Map-Reduce基器 ---> Container的 ---> 执息 ---> ApplicationMaster 建 ---> Application Map-Reduce框 public class WordCountApp extends Configured implements Tool org.apache.hadoop.conf.Configured org.apache.hadoop.util.Tool 了Job⼊ Run⽅化Job job执⼊Map类作流程交作调度创建⼀以管理作调度交⼼跳作配法，为作业容为作起请求注册并初始化⾃⾝，计算⾃⾝所需资源，并起资源请求资源请求放源队列中，配资源，获得资源后向指定的配相应源形式分等下⼀次⼼跳送⼼跳分配好对应⽤，启动已分配动后，⽤于执⾏⽤⼾的作并报进度责整个⽣命周期管理求资源业执⾏完毕请注销资源度器理了集群中的资源，并使⽤双层调度范式，执⾏资源调度。为⼀级调度，将资源分配给⼆级调度⾏⼀级调度持三种调度器进先出调度器调度平调度度器通过分配不同⼤小现资源调度度分配信创础架主类声明：需要继承⾄：对作业的定义和管理并实现接口定义口法实现实例注⼊作业主类⾏的主类是什么注

执⾏map逻类(Mapper的类) ⼊Reduce 执⾏reduce逻类(Reducer的类) TextInputFormat类识 TextOutputFormat类识 Map实 map由Mapper的的map⽅写Mapper类的map⽅ MR框建map实⽤StringTokenizer类将value⽂⽂(MR由 Reduce实 reduce由Reducer的由value属据) 的reduce⽅写Reducer类的reduce⽅ MR框将val转建reduce实为Iterator序该reduce的到Context中由key和val变，MR框 MapReduce过个map操个InputSplit 取InputSplit和到InputFormat后对map过⾏map过⾄Reducer的于map本和reduce的， Partition前个Barrier(完有Mapper执的reduce中(reduce主取)，个reducer MapReduce内 InputData：HDFS中 InputSplit： InputFormat： Mapper： Combiner： reduce Partition： Reducer同 Shuffle： Sort： Reducer： OutputFormat：定map的障)，将map的给Reduce的⾏reduce过责Job的⾄HDFS maprefuce配 1、mapred-site.xml #增 mapreduce.admin.user.env HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME yarn.app.mapreduce.am.env HADOOP_MAPRED_HOME=$HADOOP_COMMON_HOME 辑的⼦注辑的⼦注⼊输⼊类并获取输⼊⽂件的路径别执⾏命令中的输⼊路径字串并写⼊注⼊输出类并获取输出⽬录的路径别执⾏命令中的输出路径字串并写⼊开始执⾏作业并等待执⾏完毕现⼦类实现具体法须重法架会⾃动创例并执⾏，且会将读取到的输⼊⽂本拆分后性传⼊。使本拆分为词汇，遍历词汇，并将词汇和其出现次数组合成键值对写⼊上下框架传⼊的⼀个对象，专⻔⽤于保存计算过程中的数现⼦类实现具体法须重法架会⾃动创例并执⾏，且会将分配给键值对量传⼊。列后遍历之，将其数量相加后输出架会⾃动将输出值写⼊到输出⽬录中程部运⾏过程：输⼊的数据数据分⽚，每作⼀负责读执⾏键值对拆分收的键值对，执程程的键值对进⾏⼀次处理以减少输出数据量，相当地的确输出键映射关系有⼀毕后才能进⼊步保证所⾏输出键传输到指定动拉⼀个键对应⼀将传输键值排序并组合成序列执程负输出，输出置加两个配置：

2、yarn-site.xml #增加container本 yarn.nodemanager.log-dirs $HADOOP_HOME/logs/userlogs yarn.nodemanager.log.retain-seconds 108000 yarn.nodemanager.resource.memory-mb 1800 # ⽌VM不⾜Container被kill #设 yarn.nodemanager.vmem-pmem-ratio 3 、AM错卡Job、卡0%等为HA模 (1)mapred-site.xml 将mapreduce.framework.name改 ------------------------------------ vix.mapreduce.framework.name yarn ------------------------------------ (2)yarn-site.xml 将yarn.resourcemanager.address改 ------------------------------------ vix.yarn.resourcemanager.address 址:18040 ------------------------------------ 将yarn.resourcemanager.scheduler.address改 ------------------------------------ vix.yarn.resourcemanager.scheduler.address 址:18030 ------------------------------------ HBase基 HBase特础点地⽇志查看配置项⼩序会报置虚拟内存与内存的倍率，防以上配置确认⽆误后，如果仍有报内存错误误、问题找不到原因，可以尝试按以下⽅式解决：（相应属性的设置式设置）为：为：主节点地为：主节点地

资料库

大数据期末复习总结.pdf

相关推荐

大数据

热门标签

最新资料