logo资料库

CDH和datax-web离线安装文档.docx

第1页 / 共40页
第2页 / 共40页
第3页 / 共40页
第4页 / 共40页
第5页 / 共40页
第6页 / 共40页
第7页 / 共40页
第8页 / 共40页
资料共40页,剩余部分请下载后查看
一、简介(CDH)
1.CDH 是什么
CDH是Apache Hadoop和相关项目最完整、最受测试和最受欢迎的发行版。CDH提供了Hado
2.CDH 优点是什么
灵活性:可以存储任何类型的数据,并使用各种不同的计算框架对其进行操作,包括批处理、交互式SQL、自由
整合:集成在一个完整的Hadoop平台上快速启动和运行,该平台与广泛的硬件和软件解决方案一起工作。
安全:过程控制敏感数据。
可扩展性:使应用程序和扩展范围更广,并扩展它们以满足您的需求。
高可用性:信任并执行关键业务任务。
兼容性:可以利用现有的IT基础架构和资源。
3.CDH组件有哪些
Apache Avro、Apache Crunch、Apache Flume、Apache Hado
二、版本环境(CDH)
1.TLS版本支持
CDH和Cloudera Manager支持的传输层安全版本
Cloudera Manager Server 存储需求
基于主机的Cloudera Manager服务器要求
带有 HDFS, YARN, or Impala 的集群
Flume
HDFS
Hbase
Hive
Hive on Spark 执行节点
Spark
YARN
ZooKeeper
Oozie
Impala
根据使用IMPALA的工作量大小和类型,IMPALA的尺寸要求可能会有很大的不同。
对于多机架集群的网络拓扑结构,建议使用
Kafka
kafka需要相当少量的资源,特别是在一些配置调整中。默认情况下,Kafka可以在1核和1GB内存上
CPU很少成为瓶颈,因为Kafka的I/O很重,但是具有足够线程的中等大小的CPU对于处理并发连接和
Kafka代理往往具有与HDFS数据节点类似的硬件配置文件。如何构建它们取决于什么对您的Kafka用
Kafka节点的常见选择如下:
名称
内存/Java Heap
CPU
磁盘
Broker
RAM: 64 GB推荐Java heap: 4 GB使用Broker Kafka配置属性的Java
12- 24 核
操作系统用1个硬盘
 Zookeeper dataLogDir 用一个硬盘
存储kafka 用10- HDDs, 使用 Raid 10
MirrorMaker
1 GB heap使用MirrorMaker Kafka配置属性的Java堆大小设置此值。
1核3~4 streams
MirrorMaker实例上不需要磁盘空间。目标代理应该有足够的磁盘空间来存储要复制的主题。
2.软件依赖
iproute 版本
Cloudera Enterprise 6.1.x 支持的操作系统
数据库对应版本
JAVA JDK版本
三、环境准备(CDH)
1.安装前准备
JDK1.8(Oracle版本RPM安装)
Cloudera Manager 6.2.0
Linux 系统三台以上(centos 7X 以上 16G以上两台、32G以上一台)
Linux 镜像(必须与系统版本对应)
MYSQL 5.7
Python 2.7
CDH 6.2.0
2.安装顺序
关闭seLinux (所有机器)
关闭防火墙 (所有机器)
设置hostname (所有机器)
设置hosts (所有机器)
配置免密登录 (所有机器)
配置文件yum源 (一台主节点)
通过yum源安装httpd 、ntp 、gcc 、python (httpd 主节点,其他全部)
通过httpd 重新配置yum 源仓库
安装jdk (Oracle版本RPM安装)(所有机器)
安装MYSQL 并配置 (一台主节点)
通过yum 源方式安装 cloudera-scm-server
通过cm web端安装cloudera-scm-agent
配置具体服务角色
四、安装服务(CDH)
1.关闭seLinux (所有机器)
2. 关闭防火墙 (所有机器)
3.设置hostname (所有机器)
4.修改hosts (所有机器)
5.配置免密登录 (所有机器)
6.配置文件yum源 (一台主节点)
7.安装httpd
8.重新配置yum源
9.安装gcc 、python、ntp (所有机器)
10.安装jdk(oracle 版本rpm安装,所有机器)
11.安装mysql (任意一台节点)
12.通过yum 安装cloudera-scm-server
13.登录页面配置
14.系统文件存储结构
与服务相关联目录
Hdfs相关配置
集群相关配置信息(JSON格式)
配置生成方式
配置修改
数据库
CM结构
升级
卸载
开启数据库远程访问
15.硬件选择
工作负载
CDH硬件推荐
CPU、内存、磁盘IO、YARN监控
16.角色及节点分配
测试/开发集群(小于 10 台)
小规模集群(10-20 台)
中等规模集群(20-200 台)
大规模集群(200 台以上)
节点分配
五、Data-web安装
1.安装前准备
2.安装服务
3.测试是否安装成功
六、CDH与datax-web使用和注意事项
CDH 离线环境搭建 目录 一、 二、 三、 四、 五、 六、 1. 2. 1. 2. 1. 2. 3. 简介(CDH).................................................................................................................................................................2 CDH 是什么.............................................................................................................................................................. 2 CDH 优点是什么.....................................................................................................................................................2 CDH 组件有哪些...................................................................................................................................................... 2 版本环境(CDH)....................................................................................................................................................... 2 TLS 版本支持...........................................................................................................................................................2 软件依赖 ...................................................................................................................................................................9 环境准备(CDH).....................................................................................................................................................11 安装前准备............................................................................................................................................................11 安装顺序.................................................................................................................................................................12 安装服务(CDH).....................................................................................................................................................12 关闭 seLinux (所有机器) ..........................................................................................................................12 1. 关闭防火墙 (所有机器)..............................................................................................................................12 2. 设置 hostname (所有机器)........................................................................................................................12 3. 修改 hosts (所有机器)...............................................................................................................................12 4. 配置免密登录 (所有机器).........................................................................................................................13 5. 配置文件 yum 源 (一台主节点)................................................................................................................13 6. 安装 httpd............................................................................................................................................................. 13 7. 重新配置 yum 源...................................................................................................................................................14 8. 安装 gcc 、python、ntp (所有机器)...................................................................................................14 9. 10. 安装 jdk(oracle 版本 rpm 安装,所有机器) .....................................................................................16 11. 安装 mysql (任意一台节点)..................................................................................................................... 16 12. 通过 yum 安装 cloudera-scm-server.........................................................................................................18 13. 登录页面配置....................................................................................................................................................... 21 14. 系统文件存储结构..............................................................................................................................................24 15. 硬件选择.................................................................................................................................................................26 16. 角色及节点分配...................................................................................................................................................30 Data-web 安装......................................................................................................................................................... 38 1. 安装前准备.................................................................................................................................................................38 2. 安装服务..................................................................................................................................................................... 38 3. 测试是否安装成功...................................................................................................................................................39 CDH 与 datax-web 使用和注意事项................................................................................................................ 40
一、 简介(CDH) 1. CDH 是什么 CDH 是 Apache Hadoop 和相关项目最完整、最受测试和最受欢迎的发行版。CDH 提供了 Hadoop 的核 心元素—可扩展的存储和分布式计算—以及基于 Web 的用户界面和重要的企业功能。CDH 是 Apache 许 可的开放源码,是唯一提供统一批处理、交互式 SQL 和交互式搜索以及基于角色的访问控制的 Hadoop 解决方案。 2. CDH 优点是什么  灵活性:可以存储任何类型的数据,并使用各种不同的计算框架对其进行操作,包括批处理、 交互式 SQL、自由文本搜索、机器学习和统计计算。  整合:集成在一个完整的 Hadoop 平台上快速启动和运行,该平台与广泛的硬件和软件解决方 案一起工作。  安全:过程控制敏感数据。  可扩展性:使应用程序和扩展范围更广,并扩展它们以满足您的需求。  高可用性:信任并执行关键业务任务。  兼容性:可以利用现有的 IT 基础架构和资源。 3. CDH 组件有哪些 Apache Avro、Apache Crunch、Apache Flume、Apache Hadoop、Apache HBase、Apache Hive、Hue、Kite、Apache Impala、Apache Oozie、Apache Parquet、Apache Pig、Apache Sentry、Apache Solr、Apache Spark、Apache Sqoop、Apache ZooKeeper 等。 二、 版本环境(CDH) 1. TLS 版本支持  CDH 和 Cloudera Manager 支持的传输层安全版本
指定的传输层安全性(TLS)版本支持以下组件: 组件 角色 名称 端口 版本号 Cloudera Manager Cloudera Manager Server Cloudera Manager Cloudera Manager Server Flume Flume Flume HBase HDFS HDFS HDFS Hive Hue Impala Impala Impala Impala Impala Impala Impala Impala Oozie Solr Solr Spark YARN 7182 TLS 1.2 7183 TLS 1.2 9099 TLS 1.2 Avro Source/Sink Flume HTTP Source/Sink TLS 1.2 TLS 1.2 Master HBase Master Web UI Port 60010 TLS 1.2 NameNode Secure NameNode Web UI Port 50470 TLS 1.2 Secondary NameNode Secure Secondary NameNode Web UI Port 50495 TLS 1.2 HttpFS REST Port 14000 TLS 1.1, TLS 1.2 HiveServer2 HiveServer2 Port 10000 TLS 1.2 Hue Server Hue HTTP Port 8888 TLS 1.2 Impala Daemon Impala Daemon Beeswax Port 21000 TLS 1.2 Impala Daemon Impala Daemon HiveServer2 Port 21050 TLS 1.2 Impala Daemon Impala Daemon Backend Port 22000 TLS 1.2 Impala StateStore StateStore Service Port 24000 TLS 1.2 Impala Daemon Impala Daemon HTTP Server Port 25000 TLS 1.2 Impala StateStore StateStore HTTP Server Port 25010 TLS 1.2 Impala Catalog Server Catalog Server HTTP Server Port 25020 TLS 1.2 Impala Catalog Server Catalog Server Service Port 26000 TLS 1.2 Oozie Server Oozie HTTPS Port 11443 TLS 1.1, TLS 1.2 Solr Server Solr HTTP Port 8983 TLS 1.1, TLS 1.2 Solr Server Solr HTTPS Port 8985 TLS 1.1, TLS 1.2 History Server ResourceManager ResourceManager HTTP Port Web Application 8090 TLS 1.2 18080 TLS 1.2
YARN 硬件支持 JobHistory Server MRv1 JobHistory Web Application HTTP Port 19890 TLS 1.2  Cloudera Manager Server 存储需求 位置 /usr /var /opt 存储大小 备注 1 GB 5 GB 至 1 TB 根据管理的节点数进行缩放 大于 15 GB 使用率随着下载的包裹数量的增加而增加 Cloudera Database Server Manager 5 GB 如果 Cloudera Manager 数据库与服务监视器和主机监视器 共享,则需要更多的存储空间来满足这些组件的要求。  基于主机的 Cloudera Manager 服务器要求 群集主机数 数 据 库 主 机 配置 堆大小 逻 辑 处 理 器 个数 Cloudera Manager Server /var 目录 大小 非常小集群 (≤10) 共享 小集群 (≤20) 中等集群 (≤200) 共享 专用 2 GB 4 GB 8 GB 大型集群 (≤500) 专用 10 GB 4 6 6 8 5 GB >=20 GB >=200 GB >=500 GB 超大集群 (>500) 专用 16 GB 16 >=1 TB  带有 HDFS, YARN, or Impala 的集群 监控的实体对象个数 主机数量 Java Heap Size 推荐 Non-Java Heap Size 0-2,000 2,000-4,000 4,000-8,000 0-100 1 GB 100-200 1.5 GB 200-400 1.5 GB 8,000-16,000 400-800 2.5 GB 16,000-20,000 800-1,000 3.5 GB 6 GB 6 GB 12 GB 12 GB 12 GB  Flume 名称 Java Heap CPU 磁盘 Flume 最小 1 GB 最大 4 GB Java 堆大小应该大于最大 信道容量。 使用代理的 Java 堆大小设 置该值,以字节为单位的 Flume 配置属性。 使用以下公 式计算芯数: (源数量 +Flume 数 量)/2 建议将多个磁盘用于文件通道,既可以是 JBOD 设置,也可以是 RAID10(由于可靠性提高,因 此首选)。  HDFS 名称 Memory CPU 磁盘数
JournalN ode 1 GB (默认)使用 JavaLoad 的 Java 堆大小设置该值,以字节 为 HDFS 配置属性。 NameNode 最小: 1 GB (用于概念验证部 DataNode 署) 为每增加 1000000 个块添加一 个额外的 1 GB 快照和加密可以增加所需的堆 内存。 使 用 名 为 HDFS 配 置 属 性 的 NAMENODE 的 Java 堆大小设置 此值。 最少: 4 GB 增加内存以获得更高的副 本计 数或 每个 数据 节点 的块 数。当增加内存时,Cloudera 建议每 100 万个复制副本(在 数据节点上超过 400 万个)增 加 1 GB 内存。例如,500 万个 副本需要 5 GB 的内存。 使用 DATION 的 Java 堆大小设 置此值,以字节为 HDFS 配置属 性。 最 小 1 core 至 少 4 个 专用核心; 对 于 较 大 的集群,可 能 需 要 更 多 最小: 4 核. 为高 度 活 跃 的 集 群 添 加 更 多 的 核 心 1 个专用 磁盘 至少 2 个元数据专用磁盘 1 个日志文件专用磁盘(此磁盘可以与操作 系统共享) 最大 4 个磁盘 最小: 4 最大: 24 最大可接受大小将根据平均块大小的 大小而变化。DN 的可伸缩性限制主要是每 个 DN 的副本数量的函数,而不是存储的总 字节数。也就是说,如果机器或机架发生 故障,拥有超密集的 DNS 将影响恢复时间。 Cloudera 不 支 持 每 个 数 据 节 点 超 过 100 TB。您可以使用 12 x 8 TB 主轴或 24 x 4TB 主轴。Cloudera 不支持大于 8 TB 的驱动器。  Hbase 名称 Java Heap CPU 磁盘 Master Region Server 100-10,000 个 regions 需要 4 GB 拥有 200 个或更多 Region Servers 的 10000 个或更 多 Region: 8 GB 拥有 300 个或更多 Region Servers 的 10000 个或更 多 Region: 12 GB 使用 HBASE 主控器的 Java 堆大小设置此值,以字节 为基础配置属性。 最少: 8 GB 中型: 16 GB 大于 16GB 的堆需要特殊 的垃圾收集优化 使 用 HbaseRegionServer 的 Java 堆大小设置此值, 以字节为基础配置属性。 至少 4 个专用核心。在 使用复 制或批量加 载 时,可以为较大的群集 添加更多的核心。 1 个本地日志磁盘,可与操作系统 和/或其他 Hadoop 日志共享 至少 4 个专用核心 每个 HDFS DataNode 至少有 4 个或 者更多 1 个用于本地日志的磁盘(此磁盘 可以与操作系统和/或其他 Hadoop 日志共享  Hive 名称 Java Heap HiveServ 单连接 CPU 磁盘 4 GB 至少 至少 1 个
er 2 2-10 个连接数 11-20 个连接数 21-40 个连接数 41 to 80 个连接数 4-6 GB 6-12 GB 12-16 GB 16-24 GB 4 个 专用 核 以下操作需要此磁盘: HiveServer2 日志文件 stdout 和 stderr 输出文件 配置文件 Cloudera 建议将 HiveServer 2 拆分为多个实 例,并在开始向 HiveServer 2 分配超过 16GB 的空间后对其进行负载平衡。目标是调整大 小以减少 Java 垃圾收集对服务的主动处理的 影响。 使用 HiveServer2 的 Java 堆大小设置这个 值,以字节为单位的 HIVE 配置属性。 存储在 operation_logs_dir 目录 中的操作日志,可配置 可能由/tmp 目录下的本地映射任 务创建的任何临时文件 Hive Metastor e 单连接 2-10 个连接数 11-20 个连接数 21-40 个连接数 41 to 80 个连接数 4 GB 4-10 GB 10-12 GB 12-16 GB 16-24 GB 使用 Hive Metastore Server 的 Java 堆大小 设置该值,以字节为单位的 HIVE 配置属性。 至少 4 个 专用 核 至少 1 个 此磁盘是必需的,因此配置单元元 存储可以存储以下项目: 日志 配置文件 如果数据库服务器也托管在同一 节点上,则用于存储元数据的后端 数据库 Beeline CLI 至少: 2 GB  Hive on Spark 执行节点 N/A N/A 名称 Memory CPU 磁盘 Hive-on-Spark 至少: 16 GB 至少 4 核 磁盘空间要求由 Spark spill 的空间要求驱动。 推荐: 32 GB 用于更大的数据 单个执行器堆不应大于 16GB,因 此具有更多 RAM 的计算机可以使 用多个执行器。 建议:8 个核心 用于更大的数 据大小  Spark 名称 Java Heap CPU Disk Spark History Server 至少: 512 MB 使用 Spark History Server 的 Java 堆大小设置此值,以 字节配置 Spice 配置属性。 1 个 Cloudera 建议您根据特定的集 群使用模式调整 Spark History 服务器的 CPU 和内存数量。 至少 1 个磁盘用于存 放日志  YARN 名称 Java Heap CPU 其他建议
至 少 : 1 核 将 mapreduce.jobhistory.jhist.format 属 性 设置为 binary(使用此设置,历史文件的加载 速度将加快 2-3 倍) 将 mapreduce.jobhistory.loadedtasks.cache.s ize 属性设置为总加载任务计数。使用 Java 堆 栈列中的示例,在 650000 个总任务中,可以将 其设置为 700000,以允许某些安全余量。这还 应 防 止 在 垃 圾 收 集 期 间 挂 起 JobHistoryServer,因为作业计数限制没有任 务限制。 磁盘: 至少: 8 个磁盘 推荐: 12 或者更多 网络: 至少: 双 1Gbps 或更快 推荐: 单/双 10 Gbps 的速度。 至 少 8-16 核 推 荐 : 32-64 核 至 少 : 1 核 Job History Server NodeMana ger Resource Manager 至少: 1 GB 对 于 内 存 中 保 存 的 每 100000 个任务,将内存增加 1.6 GB。例如: 5 个 作 业 @100000 个 mappers+20000 个 reducers =600000 个总 任务需要 9.6GB 的堆。 使 用 Job History Server 服务器的 Java 堆大小设置 此值,以字节配置纱线配置 属性。 至少: 1 GB. 为 以 下 条 件 配 置 其 他 堆 内 存: 大量容器 大 的 Spark 或者 MapReduce shiffle 在 至少: 6 GB 为 以 下 条 件 配 置 其 他 堆 内 存: 更多 jobs 更大的 cluster 保 留 的 已 完 成 应 用 程 序 数 ( 用 yarn.resourcemanager.max -completed-applications 属性配置)。 调度程序配置 使 用 ResourceManager 的 Java 堆大小设置该值,以字 节为单位的纱线配置属性。 使 其他设置 N/A N/A 将 ApplicationMaster Memory YARN 配置属性设置 为 512 MB Memory 将 Container Minimum YARN 配置属性设置 为 1 GB。  ZooKeeper 名称 Java Heap CPU 磁盘
至 少 : 4 核 ZooKeeper 并不是为低延迟服务而设计的,也不能从使 用 SSD 驱动器中获益。ZooKeeper 访问模式(仅附加写 入和顺序读取)的设计考虑了旋转磁盘。因此,Cloudera 建议使用 HDD 驱动器。 ZooKeeper Server 至少: 1 GB 当观察 10000-100000 个短暂的 znode 并且 使 用 1000 个 或 更 多 的客户机时,增加堆 大小。 使 用 ZooKeeper Server 的 Java 堆 大 小设置这个值,以字 节 为 单 位 的 ZooKeeper 配置属性。  Oozie 名称 Oozie Java Heap CPU 磁盘 无需资源 不 需 要 资 源 额外调整 至少: 1 GB (这是由 Cloudera Manager 设置的默认值). 这对于 不到 10 个同时工作流程是足够的,而不需要分叉。 如果发现垃圾收集过多或内存不足错误,请将堆大小增加到 4 GB (对于中型生产群集)或 8 GB(对于大型生产群集)。 使用 Oozie server 的 Java 堆大小设置该值,以字节为 Oozie 配置属性。 对于使用复杂工作流运行的多个协调器的工作负载(已达到最 大并发性!)日志中出现警告,oozie admin-queuedump 命令显 示一个大队列): 1. 将 oozie.service.callablequeueservice.callable.concurrenc y 属性的值增加到 50。 2.将 oozie.service.callablequeueservice.threads 属性的值 增加到 200。 3.不要将 Derby 数据库用作 Oozie 的后端数据库。  Impala 根据使用 IMPALA 的工作量大小和类型,IMPALA 的尺寸要求可能会有很大的不同。 对于多机架集群的网络拓扑结构,建议使用 Leaf-Spine 以获得最佳性能。 名称 本机存储 JVM Heap CPU 磁盘 Impala Daemon Impala 设 置 Daemon 内存属性. 至少: 32 GB 推荐: 128 GB 设 置 Java Heap Size of Impala Daemon in Bytes 守 护进程属性. 至少: 4 GB 推荐: 8 GB Catalog Server 设 置 Java Heap Size of Catalog Server in Bytes 配置属性. 至少: 4 GB 推荐: 8 GB 至少: 1 个 推荐: 8 或者更多 至少并对讲: 1 个 至少: 4 推荐: 16 或 者更多 CPU 指 令 设 置为: AVX2 至少: 4 推荐: 16 或 者更多 CPU 指 令 设 置成: AVX2
分享到:
收藏