目录
一、
二、
三、
四、
五、
六、
七、
八、
软件及下载................................................................................................................ 2
集群环境信息 ............................................................................................................2
机器安装 .................................................................................................................... 2
1. 安装虚拟机 VirtualBox.............................................................................................. 2
2. 安装 CentOs7 ............................................................................................................. 2
基础环境搭建(hadoop 用户下) .......................................................................... 6
1. 机器名 HostName ......................................................................................................6
2. 关闭防火墙................................................................................................................ 6
3. 系统更新及常用工具安装........................................................................................7
4.
IP 配置 ........................................................................................................................ 8
JDK 安装 ..................................................................................................................... 8
5.
Hadoop 安装及配置 .................................................................................................. 9
1. 安装 ............................................................................................................................ 9
2. 配置 .......................................................................................................................... 10
机器集群搭建 ..........................................................................................................12
1. 复制机器 .................................................................................................................. 13
2. 设置静态 IP..............................................................................................................13
3. 设置机器名 hostname.............................................................................................14
ssh 免密登录 ............................................................................................................14
4.
5.
hadoop 集群测试 .....................................................................................................16
Spark & Scala 集群安装..........................................................................................18
1.
scala 安装 ................................................................................................................. 18
2.
spark 安装 ................................................................................................................ 19
3. 测试 spark 集群 ....................................................................................................... 20
Scala 开发 .................................................................................................................20
1、插件下载.................................................................................................................... 20
2、插件安装.................................................................................................................... 21
3、scala 开发 ...................................................................................................................22
4、程序执行.................................................................................................................... 22
一、 软件及下载
VirtualBox-5.1:http://sw.bos.baidu.com/sw-search-sp/software/6bda11b7d3256/VirtualBox-5.1.30.18389-Win.exe
CentOS 7:http://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso
hadoop 3.0:http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-3.0.0
jdk8:https://link.jianshu.com/?t=http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
scala2.11.tgz:https://downloads.lightbend.com/scala/2.11.6/scala-2.11.6.tgz
spark-2.3.0-bin-hadoop2.7.tgz:http://www-eu.apache.org/dist/spark/spark-2.3.0/spark-2.3.0-bin-hadoop2.7.tgz
scala 插件(for eclipse mars 4.5):https://download.csdn.net/download/icaoweiwei/9410708
二、 集群环境信息
机器名
centos7_master
centos7_slave1
centos7_slave2
IP
192.168.1.8
192.168.1.11
192.168.1.12
主机名
master
slave1
slave2
集群角色
备注
主
从 1
从 2
三、 机器安装
1. 安装虚拟机 VirtualBox
一路默认即可,会有几个相关软件安装。
2. 安装 CentOs7
1) 新建虚拟机
内存 2G,虚拟硬盘 30G,注意一下类型和版本的选择,其他一路默认,完成。
2) 设置虚拟机
主要设置存储和网络部分:
a) 基础设置
b) 加载 ISO 文件
打开如下界面,选择:
c) 网络设置
配置为“桥接”模式(虚拟机与主机同时连接外网使用,同一网段内,互不影响,
待机器启动后,配置为固定 IP 即可)。
3) 配置及安装
基础配置完成后,选中虚拟机,点击“启动”,选择“Install CentOS 7”,回车,开始安
装。
i.
ii.
设置语言
软件选择:
iii.
分区设置
分区
/
/swap
说明
Linux 系统根目录,大小 5G 以上
交换分区,物理内存的 1~2 倍
30G 硬盘
8G
2G
/boot 用于存放系统启动相关程序,大小 100M 以上即可
500M
/usr
/var
存放系统应用程序,大小 3G 以上
存放经常变化数据和日志
5G
2G
/home
存放普通用户数据,宿主目录,剩余空间
剩余空间
选择后点击“完成”,进入分区设置页:
设置好后点击“完成”,并点击“启动”开始安装。
iv. 账号设置
安装过程中进行账号设置,包括设置 root 密码、添加 hadoop 用户:
安装完成后,点击重启即可。
四、 基础环境搭建(hadoop 用户下)
1. 机器名 HostName
为了方便集群中集群相互访问及辨识,我们把当前的机器名字修改为 master,其他机
器命名为 slave1,slave2:
sudo hostnamectl set-hostname master
若出现命令错误,使用 hostnamectl -help 查看修改 hostname 的具体命令。
设置完成后,通过以下命令查看是否修改成功:
hostnamectl status --transient
hostnamectl status --static
//查看临时主机名
//设置主机名
设置完成。
2. 关闭防火墙
systemctl status firewalld.service //查看防火墙状态(绿色 active running 表示防火墙打开状态)
systemctl stop firewalld.service
//关闭防火墙
systemctl disable firewalld.service
systemctl status firewalld.service
//永久停用防火墙
//查看设置是否生效
防火墙默认状态:
防火墙停用后的状态(若不生效,尝试重启机器):
3. 系统更新及常用工具安装
1) 确定是否已连接互联网
ping www.baidu.com
常见问题:无论如何设置虚拟机网络, ping 1.1.1.1时总提示“connect: network is
unreachable”
问题分析:执行 sudodhclient 后执行ping1.1.1.1,不报错了,这时需要修改网卡配
置文件
问题原因:DHCP问题
解决方案: 修改/etc/sysconfig/network-scripts/ifcfg-[网络设备名] (按Tab看下
有几个,都改了)中最后一行 noboot = yes:
sudo vi /etc/sysconfig/network-scripts/ifcfg-enp0s3
2) 更新系统
sudo yum update
//系统更新
3) 安装工具
sudo yum install -y net-tools
sudo yum install -y vim
//安装 ifconfig 工具
4.
IP 配置
1) 查看当前网卡状态
利用 ip addr 命令查看当前网络状态,网卡:enp0s3
2) 配置静态 IP
编辑网卡 enp0s3,需要修改项:
BOOTPROTO=static
ONBOOT=yes
IPADDR=192.168.1.8
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
保存后,重启网络服务:service network restart
重启完成后使用 ip addr 查看网络状态,这时网络地址应该已经改变,然后查看是否能
访问互联网和实体机:
ping www.baidu.com
ping 192.168.1.5
#实体机地址
可以正常访问通,则网络配置 OK。
若出现网络重启失败,直接重启机器即可。
3) 绑定 hosts
修改 hosts 内容,将机器名字与 IP 地址绑定,这样通过机器名字就可以登录:
sudo vim /etc/hosts
添加如下内容:
192.168.1.8 master
192.168.1.11 slave1 // IP 地址在所有机器配置完成后可以修改
192.168.1.12 slave2 // IP 地址在所有机器配置完成后可以修改
master 192.168.1.8
4) 重启
reboot now
5. JDK 安装
因为 Hadoop 和 spark 都运行在 java7 以上版本,所有最好按照较新版本的 jdk,这里用