大数据分析实验报告.doc

发布时间：2022-06-07 发布人：admin 分类：说明书资料大小：2.66M 资料格式：doc 举报版权申诉

a152634897951-12458831-16359647515940276019.doc.pdf-第1页.png

第1页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第2页.png

第2页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第3页.png

第3页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第4页.png

第4页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第5页.png

第5页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第6页.png

第6页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第7页.png

第7页 / 共17页

a152634897951-12458831-16359647515940276019.doc.pdf-第8页.png

第8页 / 共17页

实验一 Hadoop与Spark搭建与应用程序开发

实验二 Spark MLlib实现数据挖掘算法

大数据分析实验报告 Big Data Analysis Experiment Report 学院：班级：学号：学生姓名：指导教师：教务处 2020 年 5 月

实验一 Hadoop 与 Spark 搭建与应用程序开发一. 实验目的与要求、 1、要求学生能搭建 Hadoop 和 Spark 环境； 2、要求学生能正确启动 Spark 服务进程； 3、要求学生能实现 Spark 应用程序并正确运行。二. 实验环境及软件 Virtulbox 虚拟机、unbunt 系统三. 实验内容 1.安装 ssh 保证虚拟机可以连接外网。安装成功后，ssh 登录本机。 2.安装 Java 在/usr/lib 目录下新建 jvm 文件夹，把安装包放到/usr/lib/jvm 下，然后解压。 - 1 -

JDK 文件解压缩以后，可以执行如下命令到/usr/lib/jvm 目录查看一下：可以看到，在/usr/lib/jvm 目录下有个 jdk1.8.0_221 目录。下面继续执行如下命令，设置环境变量：在.bashrc 文件中添加如下内容：保存.bashrc 文件并退出 vim 编辑器。然后，继续执行如下命令让.bashrc 文件的配置立即生效：这时，可以使用如下命令查看是否安装成功： 3. 安装 Hadoop 将 Hadoop 安装至 /usr/local/ 中： Hadoop 解压后即可使用。输入如下命令来检查 Hadoop 是否可用，成功则会显示 - 2 -

Hadoop 版本信息： 4. Hadoop 集群安装配置（1）网络配置首先在各节点上配置 hadoop 用户、安装 SSH server、安装 Java 环境、安装 Hadoop ，接着在 Master 节点上继续准备工作。首先在 Master 节点上修改主机名（即改为 Master ），并修改自己所用节点的 IP 映射（ Master ： 192.168.2.100 ； Slave01:192.168.2.119）。同时在 Slave 节点上，也对此两个文件进行相应的配置。配置好后需要在各个节点上测试是否相互 ping 得通。 - 3 -

（2）SSH 无密码登陆节点首先生成 Master 节点的公匙。为了让 Master 节点需能无密码 SSH 本机，在 Master 节点上执行如下命令并验证，成功后执行 exit 返回原来的终端。接着在 Master 节点将上公匙传输到 Slave1 节点：接着在 Slave1 节点上，将 ssh 公匙加入授权：这样，在 Master 节点上就可以无密码 SSH 到各个 Slave 节点了，可在 Master 节点上执行如下命令进行检验。 - 4 -

（3）配置环境变量（4）配置集群环境在 slaves 中，将作为 DataNode 的主机名写入该文件。配置 core-site.xml：配置 hdfs-site.xml： - 5 -

配置 yarn-site.xml：配置 mapred-site.xml，如果没有就拷贝 mapred-site.xml.template 然后重命名为 mapred-site.xml（cp mapred-site.xml.template mapred-site.xml）然后进行编辑：配置好后，将 Master 上的 /usr/local/Hadoop 文件夹复制到各个节点上。在 Master 节点上执行： - 6 -

在 Slave01 节点上执行：（5）启动 Hadoop 集群首次启动需要先在 Master 节点执行 NameNode 的格式化：接着可以启动 hadoop 了，启动需要在 Master 节点上进行：启动完成后，可以通过命令 jps 来判断是否成功启动。 - 7 -

分享到：

赞收藏

资料库

大数据分析实验报告.doc

相关推荐

操作系统

热门标签

最新资料