1 windows10 下 spark2.3.0 本地开发环境搭建
win10 上部署 Hadoop 非 Cygwin、非虚拟机方式。安装目录为 D:\setupedsoft。涉及相关组件版本:
win10 家庭装,64 位,x86 处理器
JDK1.8.0_171
hadoop-2.7.6
Spark-2.3.0
Scala-2.11.8
Maven-3.5.3
ideaIC-2018.1.4.exe
spark-2.3.0-bin-hadoop2.7
1.1 JDK1.8.0_171
a. 下载 JDK,jdk-8u171-windows-x64.exe,安装到目录:D:\setupedsoft\Java,并设置 JAVA_HOME 变量
b. 设置 Path 变量,添加 ;%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin
c. 设置 Classpath 添加: .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
d. 最后在终端输入 java -version,出现类似如下结果即可:
1.2 hadoop-2.7.6
1.2.1下载并解压
官网 http://hadoop.apache.org/releases.html 下载 Hadoop2.7.6,解压至安装目录 D:\setupedsoft\hadoop-2.7.6
1.2.2设置环境变量
a. 设置 HADOOP_HOME 变量
1.2.3支持 windows 运行
在 https://pan.baidu.com/s/1_C4TALLBW9TbIrJMC4JKtA 密码: dc63 下载一个支持在 windows 运行 hadoop 的工具,解压,用解压后的 bin、etc 目录覆盖
hadoop 的 bin、etc 目录(亲测这个工具适用于 hadoop2.5 和 2.7,其他的尚且不知)
1.2.4创建 HADOOP 数据存储目录
在/D:/datafile/hadoop-2.7.6 目录新建 workplace 目录,进入 workplace,新建子文件夹 temp、data、name
1.2.5修改 hadoop 配置文件
编辑 D:\setupedsoft\hadoop-2.7.6\etc\hadoop\core-site.xml
hadoop.tmp.dir
/D:/datafile/hadoop-2.7.6/workplace/temp
dfs.name.dir
/D:/datafile/hadoop-2.7.6/workplace/name
fs.default.name
hdfs://localhost:9000
fs.defaultFS
hdfs://localhost:9000
编辑 D:\setupedsoft\hadoop-2.7.6\etc\hadoop\mapred-site.xml
mapreduce.framework.name
yarn
mapred.job.tracker
hdfs://localhost:9001
编辑 D:\setupedsoft\hadoop-2.7.6\etc\hadoop\hdfs-site.xml
dfs.replication
1
dfs.data.dir
/D:/datafile/hadoop-2.7.6/workplace/data
dfs.namenode.name.dir
/D:/datafile/hadoop-2.7.6/workplace/namenode
dfs.datanode.data.dir
/D:/datafile/hadoop-2.7.6/workplace/datanode
编辑 D:\setupedsoft\hadoop-2.7.6\etc\hadoop\yarn-site.xml
yarn.nodemanager.aux-services
mapreduce_shuffle
yarn.nodemanager.aux-services.mapreduce.shuffle.class
org.apache.hadoop.mapred.ShuffleHandler