北 京 航 空 航 天 大 学
云计算实验报告
学
院 计算机学院
专业方向
班
级
指导教师 胡春明,沃天宇,林学练,李建欣,李博
成
员 马辉,张海珍,丁赛,卢雪飞,张驰
一、实验目的
1. 了解熟悉 linux 命令。
2. 学习 hadoop 的安装和配置。
3. 学习编写基础的 MR 代码。
二、实验内容
1. 建立 hadoop 完全分布式模式。
2. 上传数据并且对数据进行查询。
3. 通过安装 Hadoop 了解 Hadoop 的原理
三、实验原理
MapReduce 是 Hadoop 的核心技术之一,“Map(展开)”就是将一个任务
分解成为多个子任务并行的执行,“Reduce”就是将分解后多任务处理的结果汇
总起来,得出最后的分析结果并输出。
适合用 MapReduce 来处理的数据集(或任务)有一个基本要求:待处理
的数据集可以分解成许多小的数据集,而且每一个小数据集都可以完全并行地
进行处理。
四、实验设备
1.VM Centos5.5 3 台
2.PC 机一台。
五、实验步骤
(1).准备工作
配置 CentOS IP 及三台免登陆和安装 JDKhadoop2.6
master :192.168.78.130 node1
slave1 :192.168.78.131 node2
slave2 :192.168.78.132 node3
(2).配置 hadoop
1.配置 core-site.xml
fs.default.name
hdfs://192.168.78.130:9000
2. 配置:mapred-site.xml
mapred.job.tracker
192.168.78.130:9001
3. 配置:hdfs-site.xml
dfs.replication
2
dfs.name.dir
/usr/dingsai/hadoop-2.6.0/data_name1,
/usr/dingsai/hadoop-2.6.0/data_name2
dfs.data.dir
/usr/dingsai/hadoop-2.6.0/data_1,/usr/dingsai/hadoop-
2.6.0/data_2
4.配置 master 修改 /usr/dingsai/hadoop-2.6.0/etc/hadoop/masters
192.168.78.130
5.配置 slave 修改 /usr/dingsai/hadoop-2.6.0/etc/hadoop/slaves
192.168.78.131
192.168.78.132
(3).分发格式化
分发到两个 slave
scp -r * root@node2:/usr/dingsai/hadoop-2.6.0
scp -r * root@node3:/usr/dingsai/hadoop-2.6.0
(4).启动 hadoop
/usr/dingsai/hadoop-2.6.0/sbin/start-all.sh
检查是否正常运行:jps
(5).编写 Map-Reduce 程序打成 jar 包
核心代码:计算"美食"出现的次数
main 函数:
(6).上传数据文件到 hadoop 指定文件夹
创建文件夹
hadoop fs -mkdir /input
上传文件到 hadoop
hadoop fs -put ./part-00000 /input
(7).运行数据
hadoop jar /root/Desktop/Untitled.jar org.myorg.WordCount /input /output