logo资料库

Spark集群及开发环境搭建(完整版).docx

第1页 / 共23页
第2页 / 共23页
第3页 / 共23页
第4页 / 共23页
第5页 / 共23页
第6页 / 共23页
第7页 / 共23页
第8页 / 共23页
资料共23页,剩余部分请下载后查看
一、软件及下载
二、集群环境信息
三、机器安装
1.安装虚拟机VirtualBox
2.安装CentOs7
1)新建虚拟机
2)设置虚拟机
3)配置及安装
四、基础环境搭建(hadoop用户下)
1.机器名HostName
2.关闭防火墙
3.系统更新及常用工具安装
1)确定是否已连接互联网
2)更新系统
3)安装工具
4.IP配置
1)查看当前网卡状态
2)配置静态IP
3)绑定hosts
4)重启
5.JDK安装
1)解压安装
2)配置环境变量
3)测试
五、Hadoop安装及配置
1.安装
1)解压
2)配置环境变量
3)使环境变量立即生效
2.配置
1)配置workers
2)在hadoop-env.sh中配置java路径
3)修改core-site.xml
4)修改hdfs-site.xml
5)修改mapred-site.xml
6)修改yarn-site.xml
六、机器集群搭建
1.复制机器
2.设置静态IP
3.设置机器名hostname
4.ssh免密登录
1)确保都开启了ssh服务
2)生成秘钥
3)合并公钥
4)修改ssh配置并重启ssh服务
5)修改文件夹及文件权限
6)测试验证
5.hadoop集群测试
1)master机器:格式化namenode
2)master集群:启动hadoop
3)查看进程
4)查看hadoop进程管理页
5)样例程序测试
七、Spark & Scala 集群安装
1.scala安装
1)上传文件并修改权限
2)解压并移动
3)添加环境变量
4)测试是否安装成功
2.spark安装
1)文件上传及权限修改
2)解压
3)配置环境变量
4)修改配置文件
3.测试spark集群
1)master机器上启动hadoop
2)启动spark
八、Scala开发
1、插件下载
2、插件安装
3、scala开发
4、程序执行
1)打包jar
2)上传到spark服务器
3)执行jar(需保证hadoop、spark均已启动)
目录 一、 二、 三、 四、 五、 六、 七、 八、 软件及下载................................................................................................................ 2 集群环境信息 ............................................................................................................2 机器安装 .................................................................................................................... 2 1. 安装虚拟机 VirtualBox.............................................................................................. 2 2. 安装 CentOs7 ............................................................................................................. 2 基础环境搭建(hadoop 用户下) .......................................................................... 6 1. 机器名 HostName ......................................................................................................6 2. 关闭防火墙................................................................................................................ 6 3. 系统更新及常用工具安装........................................................................................7 4. IP 配置 ........................................................................................................................ 8 JDK 安装 ..................................................................................................................... 8 5. Hadoop 安装及配置 .................................................................................................. 9 1. 安装 ............................................................................................................................ 9 2. 配置 .......................................................................................................................... 10 机器集群搭建 ..........................................................................................................12 1. 复制机器 .................................................................................................................. 13 2. 设置静态 IP..............................................................................................................13 3. 设置机器名 hostname.............................................................................................14 ssh 免密登录 ............................................................................................................14 4. 5. hadoop 集群测试 .....................................................................................................16 Spark & Scala 集群安装..........................................................................................18 1. scala 安装 ................................................................................................................. 18 2. spark 安装 ................................................................................................................ 19 3. 测试 spark 集群 ....................................................................................................... 20 Scala 开发 .................................................................................................................20 1、插件下载.................................................................................................................... 20 2、插件安装.................................................................................................................... 21 3、scala 开发 ...................................................................................................................22 4、程序执行.................................................................................................................... 22
一、 软件及下载 VirtualBox-5.1:http://sw.bos.baidu.com/sw-search-sp/software/6bda11b7d3256/VirtualBox-5.1.30.18389-Win.exe CentOS 7:http://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso hadoop 3.0:http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-3.0.0 jdk8:https://link.jianshu.com/?t=http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html scala2.11.tgz:https://downloads.lightbend.com/scala/2.11.6/scala-2.11.6.tgz spark-2.3.0-bin-hadoop2.7.tgz:http://www-eu.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz scala 插件(for eclipse mars 4.5):https://download.csdn.net/download/icaoweiwei/9410708 二、 集群环境信息 机器名 centos7_master centos7_slave1 centos7_slave2 IP 192.168.1.8 192.168.1.11 192.168.1.12 主机名 master slave1 slave2 集群角色 备注 主 从 1 从 2 三、 机器安装 1. 安装虚拟机 VirtualBox 一路默认即可,会有几个相关软件安装。 2. 安装 CentOs7 1) 新建虚拟机 内存 2G,虚拟硬盘 30G,注意一下类型和版本的选择,其他一路默认,完成。
2) 设置虚拟机 主要设置存储和网络部分: a) 基础设置 b) 加载 ISO 文件 打开如下界面,选择:
c) 网络设置 配置为“桥接”模式(虚拟机与主机同时连接外网使用,同一网段内,互不影响, 待机器启动后,配置为固定 IP 即可)。 3) 配置及安装 基础配置完成后,选中虚拟机,点击“启动”,选择“Install CentOS 7”,回车,开始安 装。 i. ii. 设置语言 软件选择: iii. 分区设置 分区 / /swap 说明 Linux 系统根目录,大小 5G 以上 交换分区,物理内存的 1~2 倍 30G 硬盘 8G 2G /boot 用于存放系统启动相关程序,大小 100M 以上即可 500M /usr /var 存放系统应用程序,大小 3G 以上 存放经常变化数据和日志 5G 2G /home 存放普通用户数据,宿主目录,剩余空间 剩余空间
选择后点击“完成”,进入分区设置页: 设置好后点击“完成”,并点击“启动”开始安装。 iv. 账号设置 安装过程中进行账号设置,包括设置 root 密码、添加 hadoop 用户:
安装完成后,点击重启即可。 四、 基础环境搭建(hadoop 用户下) 1. 机器名 HostName 为了方便集群中集群相互访问及辨识,我们把当前的机器名字修改为 master,其他机 器命名为 slave1,slave2: sudo hostnamectl set-hostname master 若出现命令错误,使用 hostnamectl -help 查看修改 hostname 的具体命令。 设置完成后,通过以下命令查看是否修改成功: hostnamectl status --transient hostnamectl status --static //查看临时主机名 //设置主机名 设置完成。 2. 关闭防火墙 systemctl status firewalld.service //查看防火墙状态(绿色 active running 表示防火墙打开状态) systemctl stop firewalld.service //关闭防火墙
systemctl disable firewalld.service systemctl status firewalld.service //永久停用防火墙 //查看设置是否生效 防火墙默认状态: 防火墙停用后的状态(若不生效,尝试重启机器): 3. 系统更新及常用工具安装 1) 确定是否已连接互联网 ping www.baidu.com 常见问题:无论如何设置虚拟机网络, ping 1.1.1.1时总提示“connect: network is unreachable” 问题分析:执行 sudodhclient 后执行ping1.1.1.1,不报错了,这时需要修改网卡配 置文件 问题原因:DHCP问题 解决方案: 修改/etc/sysconfig/network-scripts/ifcfg-[网络设备名] (按Tab看下 有几个,都改了)中最后一行 noboot = yes: sudo vi /etc/sysconfig/network-scripts/ifcfg-enp0s3 2) 更新系统 sudo yum update //系统更新 3) 安装工具 sudo yum install -y net-tools sudo yum install -y vim //安装 ifconfig 工具
4. IP 配置 1) 查看当前网卡状态 利用 ip addr 命令查看当前网络状态,网卡:enp0s3 2) 配置静态 IP 编辑网卡 enp0s3,需要修改项: BOOTPROTO=static ONBOOT=yes IPADDR=192.168.1.8 NETMASK=255.255.255.0 GATEWAY=192.168.1.1 保存后,重启网络服务:service network restart 重启完成后使用 ip addr 查看网络状态,这时网络地址应该已经改变,然后查看是否能 访问互联网和实体机: ping www.baidu.com ping 192.168.1.5 #实体机地址 可以正常访问通,则网络配置 OK。 若出现网络重启失败,直接重启机器即可。 3) 绑定 hosts 修改 hosts 内容,将机器名字与 IP 地址绑定,这样通过机器名字就可以登录: sudo vim /etc/hosts 添加如下内容: 192.168.1.8 master 192.168.1.11 slave1 // IP 地址在所有机器配置完成后可以修改 192.168.1.12 slave2 // IP 地址在所有机器配置完成后可以修改 master 192.168.1.8 4) 重启 reboot now 5. JDK 安装 因为 Hadoop 和 spark 都运行在 java7 以上版本,所有最好按照较新版本的 jdk,这里用
分享到:
收藏