CDH和datax-web离线安装文档.docx

发布时间：2022-06-01 发布人：admin 分类：说明书资料大小：1.91M 资料格式：docx 举报版权申诉

weixin_43944102-12661126-4744300845382183433.docx.pdf-第1页.png

第1页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第2页.png

第2页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第3页.png

第3页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第4页.png

第4页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第5页.png

第5页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第6页.png

第6页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第7页.png

第7页 / 共40页

weixin_43944102-12661126-4744300845382183433.docx.pdf-第8页.png

第8页 / 共40页

一、简介（CDH）

1.CDH 是什么

CDH是Apache Hadoop和相关项目最完整、最受测试和最受欢迎的发行版。CDH提供了Hado

2.CDH 优点是什么

灵活性：可以存储任何类型的数据，并使用各种不同的计算框架对其进行操作，包括批处理、交互式SQL、自由

整合：集成在一个完整的Hadoop平台上快速启动和运行，该平台与广泛的硬件和软件解决方案一起工作。

安全：过程控制敏感数据。

可扩展性：使应用程序和扩展范围更广，并扩展它们以满足您的需求。

高可用性：信任并执行关键业务任务。

兼容性：可以利用现有的IT基础架构和资源。

3.CDH组件有哪些

Apache Avro、Apache Crunch、Apache Flume、Apache Hado

二、版本环境（CDH）

1.TLS版本支持

CDH和Cloudera Manager支持的传输层安全版本

Cloudera Manager Server 存储需求

基于主机的Cloudera Manager服务器要求

带有 HDFS, YARN, or Impala 的集群

Flume

HDFS

Hbase

Hive

Hive on Spark 执行节点

Spark

YARN

ZooKeeper

Oozie

Impala

根据使用IMPALA的工作量大小和类型，IMPALA的尺寸要求可能会有很大的不同。

对于多机架集群的网络拓扑结构，建议使用

Kafka

kafka需要相当少量的资源，特别是在一些配置调整中。默认情况下，Kafka可以在1核和1GB内存上

CPU很少成为瓶颈，因为Kafka的I/O很重，但是具有足够线程的中等大小的CPU对于处理并发连接和

Kafka代理往往具有与HDFS数据节点类似的硬件配置文件。如何构建它们取决于什么对您的Kafka用

Kafka节点的常见选择如下：

名称

内存/Java Heap

CPU

磁盘

Broker

RAM: 64 GB推荐Java heap: 4 GB使用Broker Kafka配置属性的Java

12- 24 核

操作系统用1个硬盘

Zookeeper dataLogDir 用一个硬盘

存储kafka 用10- HDDs, 使用 Raid 10

MirrorMaker

1 GB heap使用MirrorMaker Kafka配置属性的Java堆大小设置此值。

1核3～4 streams

MirrorMaker实例上不需要磁盘空间。目标代理应该有足够的磁盘空间来存储要复制的主题。

2.软件依赖

iproute 版本

Cloudera Enterprise 6.1.x 支持的操作系统

数据库对应版本

JAVA JDK版本

三、环境准备（CDH）

1.安装前准备

JDK1.8（Oracle版本RPM安装）

Cloudera Manager 6.2.0

Linux 系统三台以上（centos 7X 以上 16G以上两台、32G以上一台）

Linux 镜像（必须与系统版本对应）

MYSQL 5.7

Python 2.7

CDH 6.2.0

2.安装顺序

关闭seLinux （所有机器）

关闭防火墙（所有机器）

设置hostname （所有机器）

设置hosts （所有机器）

配置免密登录（所有机器）

配置文件yum源（一台主节点）

通过yum源安装httpd 、ntp 、gcc 、python （httpd 主节点，其他全部）

通过httpd 重新配置yum 源仓库

安装jdk （Oracle版本RPM安装）（所有机器）

安装MYSQL 并配置（一台主节点）

通过yum 源方式安装 cloudera-scm-server

通过cm web端安装cloudera-scm-agent

配置具体服务角色

四、安装服务（CDH）

1.关闭seLinux （所有机器）

2. 关闭防火墙（所有机器）

3.设置hostname （所有机器）

4.修改hosts （所有机器）

5.配置免密登录（所有机器）

6.配置文件yum源（一台主节点）

7.安装httpd

8.重新配置yum源

9.安装gcc 、python、ntp （所有机器）

10.安装jdk（oracle 版本rpm安装，所有机器）

11.安装mysql （任意一台节点）

12.通过yum 安装cloudera-scm-server

13.登录页面配置

14.系统文件存储结构

与服务相关联目录

Hdfs相关配置

集群相关配置信息（JSON格式）

配置生成方式

配置修改

数据库

CM结构

升级

卸载

开启数据库远程访问

15.硬件选择

工作负载

CDH硬件推荐

CPU、内存、磁盘IO、YARN监控

16.角色及节点分配

测试/开发集群（小于 10 台）

小规模集群（10-20 台）

中等规模集群（20-200 台）

大规模集群（200 台以上）

节点分配

五、Data-web安装

1.安装前准备

2.安装服务

3.测试是否安装成功

六、CDH与datax-web使用和注意事项

CDH 离线环境搭建目录一、二、三、四、五、六、 1. 2. 1. 2. 1. 2. 3. 简介（CDH）.................................................................................................................................................................2 CDH 是什么.............................................................................................................................................................. 2 CDH 优点是什么.....................................................................................................................................................2 CDH 组件有哪些...................................................................................................................................................... 2 版本环境（CDH）....................................................................................................................................................... 2 TLS 版本支持...........................................................................................................................................................2 软件依赖 ...................................................................................................................................................................9 环境准备（CDH）.....................................................................................................................................................11 安装前准备............................................................................................................................................................11 安装顺序.................................................................................................................................................................12 安装服务（CDH）.....................................................................................................................................................12 关闭 seLinux （所有机器） ..........................................................................................................................12 1. 关闭防火墙（所有机器）..............................................................................................................................12 2. 设置 hostname （所有机器）........................................................................................................................12 3. 修改 hosts （所有机器）...............................................................................................................................12 4. 配置免密登录（所有机器）.........................................................................................................................13 5. 配置文件 yum 源（一台主节点）................................................................................................................13 6. 安装 httpd............................................................................................................................................................. 13 7. 重新配置 yum 源...................................................................................................................................................14 8. 安装 gcc 、python、ntp （所有机器）...................................................................................................14 9. 10. 安装 jdk（oracle 版本 rpm 安装，所有机器） .....................................................................................16 11. 安装 mysql （任意一台节点）..................................................................................................................... 16 12. 通过 yum 安装 cloudera-scm-server.........................................................................................................18 13. 登录页面配置....................................................................................................................................................... 21 14. 系统文件存储结构..............................................................................................................................................24 15. 硬件选择.................................................................................................................................................................26 16. 角色及节点分配...................................................................................................................................................30 Data-web 安装......................................................................................................................................................... 38 1. 安装前准备.................................................................................................................................................................38 2. 安装服务..................................................................................................................................................................... 38 3. 测试是否安装成功...................................................................................................................................................39 CDH 与 datax-web 使用和注意事项................................................................................................................ 40

一、简介（CDH） 1. CDH 是什么 CDH 是 Apache Hadoop 和相关项目最完整、最受测试和最受欢迎的发行版。CDH 提供了 Hadoop 的核心元素—可扩展的存储和分布式计算—以及基于 Web 的用户界面和重要的企业功能。CDH 是 Apache 许可的开放源码，是唯一提供统一批处理、交互式 SQL 和交互式搜索以及基于角色的访问控制的 Hadoop 解决方案。 2. CDH 优点是什么  灵活性：可以存储任何类型的数据，并使用各种不同的计算框架对其进行操作，包括批处理、交互式 SQL、自由文本搜索、机器学习和统计计算。  整合：集成在一个完整的 Hadoop 平台上快速启动和运行，该平台与广泛的硬件和软件解决方案一起工作。  安全：过程控制敏感数据。  可扩展性：使应用程序和扩展范围更广，并扩展它们以满足您的需求。  高可用性：信任并执行关键业务任务。  兼容性：可以利用现有的 IT 基础架构和资源。 3. CDH 组件有哪些 Apache Avro、Apache Crunch、Apache Flume、Apache Hadoop、Apache HBase、Apache Hive、Hue、Kite、Apache Impala、Apache Oozie、Apache Parquet、Apache Pig、Apache Sentry、Apache Solr、Apache Spark、Apache Sqoop、Apache ZooKeeper 等。二、版本环境（CDH） 1. TLS 版本支持  CDH 和 Cloudera Manager 支持的传输层安全版本

指定的传输层安全性（TLS）版本支持以下组件：组件角色名称端口版本号 Cloudera Manager Cloudera Manager Server Cloudera Manager Cloudera Manager Server Flume Flume Flume HBase HDFS HDFS HDFS Hive Hue Impala Impala Impala Impala Impala Impala Impala Impala Oozie Solr Solr Spark YARN 7182 TLS 1.2 7183 TLS 1.2 9099 TLS 1.2 Avro Source/Sink Flume HTTP Source/Sink TLS 1.2 TLS 1.2 Master HBase Master Web UI Port 60010 TLS 1.2 NameNode Secure NameNode Web UI Port 50470 TLS 1.2 Secondary NameNode Secure Secondary NameNode Web UI Port 50495 TLS 1.2 HttpFS REST Port 14000 TLS 1.1, TLS 1.2 HiveServer2 HiveServer2 Port 10000 TLS 1.2 Hue Server Hue HTTP Port 8888 TLS 1.2 Impala Daemon Impala Daemon Beeswax Port 21000 TLS 1.2 Impala Daemon Impala Daemon HiveServer2 Port 21050 TLS 1.2 Impala Daemon Impala Daemon Backend Port 22000 TLS 1.2 Impala StateStore StateStore Service Port 24000 TLS 1.2 Impala Daemon Impala Daemon HTTP Server Port 25000 TLS 1.2 Impala StateStore StateStore HTTP Server Port 25010 TLS 1.2 Impala Catalog Server Catalog Server HTTP Server Port 25020 TLS 1.2 Impala Catalog Server Catalog Server Service Port 26000 TLS 1.2 Oozie Server Oozie HTTPS Port 11443 TLS 1.1, TLS 1.2 Solr Server Solr HTTP Port 8983 TLS 1.1, TLS 1.2 Solr Server Solr HTTPS Port 8985 TLS 1.1, TLS 1.2 History Server ResourceManager ResourceManager HTTP Port Web Application 8090 TLS 1.2 18080 TLS 1.2

YARN 硬件支持 JobHistory Server MRv1 JobHistory Web Application HTTP Port 19890 TLS 1.2  Cloudera Manager Server 存储需求位置 /usr /var /opt 存储大小备注 1 GB 5 GB 至 1 TB 根据管理的节点数进行缩放大于 15 GB 使用率随着下载的包裹数量的增加而增加 Cloudera Database Server Manager 5 GB 如果 Cloudera Manager 数据库与服务监视器和主机监视器共享，则需要更多的存储空间来满足这些组件的要求。  基于主机的 Cloudera Manager 服务器要求群集主机数数据库主机配置堆大小逻辑处理器个数 Cloudera Manager Server /var 目录大小非常小集群 (≤10) 共享小集群 (≤20) 中等集群 (≤200) 共享专用 2 GB 4 GB 8 GB 大型集群 (≤500) 专用 10 GB 4 6 6 8 5 GB >=20 GB >=200 GB >=500 GB 超大集群 (>500) 专用 16 GB 16 >=1 TB  带有 HDFS, YARN, or Impala 的集群监控的实体对象个数主机数量 Java Heap Size 推荐 Non-Java Heap Size 0-2,000 2,000-4,000 4,000-8,000 0-100 1 GB 100-200 1.5 GB 200-400 1.5 GB 8,000-16,000 400-800 2.5 GB 16,000-20,000 800-1,000 3.5 GB 6 GB 6 GB 12 GB 12 GB 12 GB  Flume 名称 Java Heap CPU 磁盘 Flume 最小 1 GB 最大 4 GB Java 堆大小应该大于最大信道容量。使用代理的 Java 堆大小设置该值，以字节为单位的 Flume 配置属性。使用以下公式计算芯数：（源数量 +Flume 数量）/2 建议将多个磁盘用于文件通道，既可以是 JBOD 设置，也可以是 RAID10（由于可靠性提高，因此首选）。  HDFS 名称 Memory CPU 磁盘数

JournalN ode 1 GB (默认)使用 JavaLoad 的 Java 堆大小设置该值，以字节为 HDFS 配置属性。 NameNode 最小： 1 GB (用于概念验证部 DataNode 署) 为每增加 1000000 个块添加一个额外的 1 GB 快照和加密可以增加所需的堆内存。使用名为 HDFS 配置属性的 NAMENODE 的 Java 堆大小设置此值。最少: 4 GB 增加内存以获得更高的副本计数或每个数据节点的块数。当增加内存时，Cloudera 建议每 100 万个复制副本（在数据节点上超过 400 万个）增加 1 GB 内存。例如，500 万个副本需要 5 GB 的内存。使用 DATION 的 Java 堆大小设置此值，以字节为 HDFS 配置属性。最小 1 core 至少 4 个专用核心；对于较大的集群，可能需要更多最小: 4 核. 为高度活跃的集群添加更多的核心 1 个专用磁盘至少 2 个元数据专用磁盘 1 个日志文件专用磁盘（此磁盘可以与操作系统共享）最大 4 个磁盘最小: 4 最大: 24 最大可接受大小将根据平均块大小的大小而变化。DN 的可伸缩性限制主要是每个 DN 的副本数量的函数，而不是存储的总字节数。也就是说，如果机器或机架发生故障，拥有超密集的 DNS 将影响恢复时间。 Cloudera 不支持每个数据节点超过 100 TB。您可以使用 12 x 8 TB 主轴或 24 x 4TB 主轴。Cloudera 不支持大于 8 TB 的驱动器。  Hbase 名称 Java Heap CPU 磁盘 Master Region Server 100-10,000 个 regions 需要 4 GB 拥有 200 个或更多 Region Servers 的 10000 个或更多 Region: 8 GB 拥有 300 个或更多 Region Servers 的 10000 个或更多 Region: 12 GB 使用 HBASE 主控器的 Java 堆大小设置此值，以字节为基础配置属性。最少: 8 GB 中型: 16 GB 大于 16GB 的堆需要特殊的垃圾收集优化使用 HbaseRegionServer 的 Java 堆大小设置此值，以字节为基础配置属性。至少 4 个专用核心。在使用复制或批量加载时，可以为较大的群集添加更多的核心。 1 个本地日志磁盘，可与操作系统和/或其他 Hadoop 日志共享至少 4 个专用核心每个 HDFS DataNode 至少有 4 个或者更多 1 个用于本地日志的磁盘（此磁盘可以与操作系统和/或其他 Hadoop 日志共享  Hive 名称 Java Heap HiveServ 单连接 CPU 磁盘 4 GB 至少至少 1 个

er 2 2-10 个连接数 11-20 个连接数 21-40 个连接数 41 to 80 个连接数 4-6 GB 6-12 GB 12-16 GB 16-24 GB 4 个专用核以下操作需要此磁盘： HiveServer2 日志文件 stdout 和 stderr 输出文件配置文件 Cloudera 建议将 HiveServer 2 拆分为多个实例，并在开始向 HiveServer 2 分配超过 16GB 的空间后对其进行负载平衡。目标是调整大小以减少 Java 垃圾收集对服务的主动处理的影响。使用 HiveServer2 的 Java 堆大小设置这个值，以字节为单位的 HIVE 配置属性。存储在 operation_logs_dir 目录中的操作日志，可配置可能由/tmp 目录下的本地映射任务创建的任何临时文件 Hive Metastor e 单连接 2-10 个连接数 11-20 个连接数 21-40 个连接数 41 to 80 个连接数 4 GB 4-10 GB 10-12 GB 12-16 GB 16-24 GB 使用 Hive Metastore Server 的 Java 堆大小设置该值，以字节为单位的 HIVE 配置属性。至少 4 个专用核至少 1 个此磁盘是必需的，因此配置单元元存储可以存储以下项目：日志配置文件如果数据库服务器也托管在同一节点上，则用于存储元数据的后端数据库 Beeline CLI 至少: 2 GB  Hive on Spark 执行节点 N/A N/A 名称 Memory CPU 磁盘 Hive-on-Spark 至少: 16 GB 至少 4 核磁盘空间要求由 Spark spill 的空间要求驱动。推荐: 32 GB 用于更大的数据单个执行器堆不应大于 16GB，因此具有更多 RAM 的计算机可以使用多个执行器。建议：8 个核心用于更大的数据大小  Spark 名称 Java Heap CPU Disk Spark History Server 至少: 512 MB 使用 Spark History Server 的 Java 堆大小设置此值，以字节配置 Spice 配置属性。 1 个 Cloudera 建议您根据特定的集群使用模式调整 Spark History 服务器的 CPU 和内存数量。至少 1 个磁盘用于存放日志  YARN 名称 Java Heap CPU 其他建议

至少 : 1 核将 mapreduce.jobhistory.jhist.format 属性设置为 binary（使用此设置，历史文件的加载速度将加快 2-3 倍）将 mapreduce.jobhistory.loadedtasks.cache.s ize 属性设置为总加载任务计数。使用 Java 堆栈列中的示例，在 650000 个总任务中，可以将其设置为 700000，以允许某些安全余量。这还应防止在垃圾收集期间挂起 JobHistoryServer，因为作业计数限制没有任务限制。磁盘: 至少: 8 个磁盘推荐: 12 或者更多网络: 至少: 双 1Gbps 或更快推荐: 单/双 10 Gbps 的速度。至少 8-16 核推荐 : 32-64 核至少 : 1 核 Job History Server NodeMana ger Resource Manager 至少: 1 GB 对于内存中保存的每 100000 个任务，将内存增加 1.6 GB。例如： 5 个作业 @100000 个 mappers+20000 个 reducers =600000 个总任务需要 9.6GB 的堆。使用 Job History Server 服务器的 Java 堆大小设置此值，以字节配置纱线配置属性。至少: 1 GB. 为以下条件配置其他堆内存：大量容器大的 Spark 或者 MapReduce shiffle 在至少: 6 GB 为以下条件配置其他堆内存：更多 jobs 更大的 cluster 保留的已完成应用程序数（用 yarn.resourcemanager.max -completed-applications 属性配置）。调度程序配置使用 ResourceManager 的 Java 堆大小设置该值，以字节为单位的纱线配置属性。使其他设置 N/A N/A 将 ApplicationMaster Memory YARN 配置属性设置为 512 MB Memory 将 Container Minimum YARN 配置属性设置为 1 GB。  ZooKeeper 名称 Java Heap CPU 磁盘

至少 : 4 核 ZooKeeper 并不是为低延迟服务而设计的，也不能从使用 SSD 驱动器中获益。ZooKeeper 访问模式（仅附加写入和顺序读取）的设计考虑了旋转磁盘。因此，Cloudera 建议使用 HDD 驱动器。 ZooKeeper Server 至少: 1 GB 当观察 10000-100000 个短暂的 znode 并且使用 1000 个或更多的客户机时，增加堆大小。使用 ZooKeeper Server 的 Java 堆大小设置这个值，以字节为单位的 ZooKeeper 配置属性。  Oozie 名称 Oozie Java Heap CPU 磁盘无需资源不需要资源额外调整至少: 1 GB (这是由 Cloudera Manager 设置的默认值). 这对于不到 10 个同时工作流程是足够的，而不需要分叉。如果发现垃圾收集过多或内存不足错误，请将堆大小增加到 4 GB （对于中型生产群集）或 8 GB（对于大型生产群集）。使用 Oozie server 的 Java 堆大小设置该值，以字节为 Oozie 配置属性。对于使用复杂工作流运行的多个协调器的工作负载（已达到最大并发性！）日志中出现警告，oozie admin-queuedump 命令显示一个大队列）： 1. 将 oozie.service.callablequeueservice.callable.concurrenc y 属性的值增加到 50。 2.将 oozie.service.callablequeueservice.threads 属性的值增加到 200。 3.不要将 Derby 数据库用作 Oozie 的后端数据库。  Impala 根据使用 IMPALA 的工作量大小和类型，IMPALA 的尺寸要求可能会有很大的不同。对于多机架集群的网络拓扑结构，建议使用 Leaf-Spine 以获得最佳性能。名称本机存储 JVM Heap CPU 磁盘 Impala Daemon Impala 设置 Daemon 内存属性. 至少: 32 GB 推荐: 128 GB 设置 Java Heap Size of Impala Daemon in Bytes 守护进程属性. 至少: 4 GB 推荐: 8 GB Catalog Server 设置 Java Heap Size of Catalog Server in Bytes 配置属性. 至少: 4 GB 推荐: 8 GB 至少: 1 个推荐: 8 或者更多至少并对讲: 1 个至少: 4 推荐: 16 或者更多 CPU 指令设置为: AVX2 至少: 4 推荐: 16 或者更多 CPU 指令设置成: AVX2

分享到：

赞收藏

资料库

CDH和datax-web离线安装文档.docx

相关推荐

行业

热门标签

最新资料