中 国 地 质 大 学
研究生课程论文封面
课 程 名称 大数据技术原理及应用
教 师 姓名
吴湘宁
研究生姓名 涂大喜
研究生学号 1201711353
研究生专业 信息安全
所 在 院系 计算机学院
类 别: B.硕士
日 期: 2018 年 1 月 10 日
评 语
对课程论文的评语:
平时成绩:
总 成 绩:
课程论文成绩:
评阅人签名:
注:1、无评阅人签名成绩无效;
2、必须用钢笔或圆珠笔批阅,用铅笔阅卷无效;
3、如有平时成绩,必须在上面评分表中标出,并计算入总成绩。
中国地质大学(武汉)
目录
2.1
《大数据技术原理及应用》实验报告 .....................................................................1
第一章 实验介绍 ..............................................................................................1
1.1 实验内容 ..............................................................................................1
1.2 相关软件及试验操作介绍 .....................................................................2
第二章 环境准备 ..............................................................................................3
Hadoop 环境配置 ..................................................................................3
2.1.1 SSH 无密码登录 ............................................................................4
2.1.2 JAVA 环境安装 ..............................................................................5
2.1.3 伪分布式配置及启动 .....................................................................6
2.1.4 问题小结及思考 ............................................................................9
2.2 MySQL 环境配置................................................................................ 11
2.2.1 MySQL 安装................................................................................ 11
2.2.2 问题小结及思考 .......................................................................... 12
2.3 HBase 环境配置 .................................................................................... 13
2.3.1 HBase 安装.................................................................................. 13
2.3.2 伪分布式配置及启动 ................................................................... 14
2.3.3 问题小结及思考 .......................................................................... 16
2.4 Hive 环境配置 ....................................................................................... 17
2.4.1 Hive 安装 .................................................................................... 17
2.4.2 配置及启动 ................................................................................. 18
2.4.3 问题小结及思考 .......................................................................... 18
2.5 Sqoop 环境配置..................................................................................... 19
2.5.1 Sqoop 安装 .................................................................................. 19
2.5.2 环境配置及启动 .......................................................................... 20
2.6 Eclipse 安装 .......................................................................................... 21
第三章 本地数据集上传到数据仓库 ................................................................ 21
3.1 本地数据预处理 .................................................................................... 22
3.2 上传数据至 Hive ................................................................................... 23
3.2.1 数据上传到 HDFS........................................................................ 23
3.2.2 数据导入 Hive ............................................................................. 24
3.3 问题小结及思考 ................................................................................. 25
Hive 数据分析 .................................................................................... 27
4.1 简单查询分析 ..................................................................................... 27
4.2 查询条数统计分析 .............................................................................. 28
4.3 关键字条件查询分析 .......................................................................... 30
4.4 根据用户行为分析 .............................................................................. 32
4.5 用户实时查询分析 .............................................................................. 36
4.6 问题小结及思考 ................................................................................. 37
第四章
中国地质大学(武汉)
第五章
Hive、MySQL、HBase 数据互导 ........................................................ 39
5.1 创建临时表 ........................................................................................ 39
5.2
Hive 数据导向 MySQL ........................................................................ 40
5.3 MySQL 数据导向 HBase ..................................................................... 43
5.4 本地数据导向 HBase........................................................................... 44
5.5 问题小结及思考 ................................................................................. 47
第六章 数据可视化分析 ................................................................................. 47
6.1 可视化工具安装 ................................................................................. 47
6.2 可视化分析 ........................................................................................ 49
6.3 问题小结及思考 ................................................................................. 54
第七章 心得体会 ............................................................................................ 55
中国地质大学(武汉)
《大数据技术原理及应用》实验报告
第一章 实验介绍
1.1 实验内容
本人在二选一的实验内容中选择实验一:网站用户行为分析,该实验手
册由厦门大学数据库实验室团队编写,旨在锻炼学生在大数据学习过程中对
大数据原理及技术应用能力。本案例涉及数据预处理、存储、查询和可视化
分析等数据处理全流程所涉及的各种典型操作,涵盖 Linux、MySQL、Hadoop、
HBase、Hive、Sqoop、R、Eclipse 等系统和软件的安装和使用方法。实际完
成的实验任务有:
安装 Linux 操作系统;
安装关系型数据库 MySQL;
安装大数据处理框架 Hadoop;
安装列族数据库 HBase;
安装数据仓库 Hive;
安装 Sqoop;
安装 R;
安装 Eclipse;
对文本文件形式的原始数据集进行预处理;
把文本文件的数据集导入到数据仓库 Hive 中;
对数据仓库 Hive 中的数据进行查询分析;
使用 Sqoop 将数据从 Hive 导入 MySQL;
使用 Sqoop 将数据从 MySQL 导入 HBase;
使用 HBase Java API 把数据从本地导入到 HBase 中;
使用 R 对 MySQL 中的数据进行可视化分析;
1
《大数据技术原理及应用》课程报告
1.2 相关软件及试验操作介绍
本实验所涉及的系统及软件总体概览图如下:
实验所需的软件配置完成后,实验环境正常时需要进行的实验操作简略图如
下所示:
图 1 实验所用软件总体框架图
图 2 实验所要操作概览图
在实验手册中列出的实验内容中,因为前半部分主要为实验环境的配置
内容,所以在我的实验报告书中我会将这些配置工作写入到一节中,并将每
个配置过程遇到了问题汇总并记录解决方案。总体实验步骤为:实验环境准
备、本地数据上传到数据仓库 Hive、Hive 数据分析、Hive 与 MySQL 与 HBase
数据互导、利用 R 进行可视化分析。每个实验过程的详细操作、问题汇总
及解决方案都会在后续的章节中分别给出。
2
中国地质大学(武汉)
第二章 环境准备
本章内容主要锻炼了我对双操作系统安装、虚拟机安装、Linux 基本操
作、Hadoop 安装、HBase 安装、Sqoop 安装、Eclipse 安装等等方面的操作
能力。同时也使我对 Linux 操作系统、大数据处理架构 Hadoop 的关键技术
及其基本原理、列族数据库 HBase 概念及其原理、数据仓库概念与原理、
关系型数据库概念与原理产生相应了解。
2.1 Hadoop 环境配置
在 Hadoop 配置之前,我的实验环境首先是在 VM 上搭载的虚拟机
Ubuntu 14.04.3 版本,选择的 Hadoop 软件版本为 2.7.4,如下图所示:
图 3 Hadoop 软件版本
本次实验采用的是在 Ubuntu 系统中搭建伪分布式的 Hadoop 环境。因
为在一个真实 Hadoop 集群中时可能会存在着成千上万台机器,而每次启动
Hadoop 集群时不能够逐一开启,而是只需要启动我们的 NameNode 后,从
Master 节点远程到所有 Slaver 节点上启动从节点的进程,而这一过程往往就
需要我们的进行下一步配置:SSH 登录。
3
《大数据技术原理及应用》课程报告
2.1.1 SSH 无密码登录
集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以
登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH
client,此外还需要安装 SSH server,安装命令如下:
sudo apt-get install openssh-server
在安装完成之后便可以使用下列命令登录到 localhost:
ssh localhost
此时会有如下提示(SSH 首次登陆提示),输入 yes 。然后按提示输入密
码 hadoop,这样就登陆到本机了。但这样登陆是需要每次输入密码的,而
且当集群中存在很多台机器时,这样就会非常的麻烦,所以我们需要配置成
SSH 无密码登陆比较方便。这时候我们可以新开一个终端,执行下列命令来
配置我们 SSH 无密码认证工作:
cd ~/.ssh/ # 若没有该目录,请先执行一次 ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys
# 加入授权
上述命令中第二步是生成 rsa 方式下的密钥,这里同样也是可以产生 des
方式的密钥的。第三步则是将上一步产生的密钥添加到本地认证密钥文件中,
这样一来持有该秘钥的主机在登录本机时均可以通过无密码的 SSH 登录方
式来访问本机。依次类推,当在真实地 Hadoop 集群中时则可以将每一台
Slavers 主机上产生的密钥全都添加到 Master 节点的认证文件中,这样一来
主节点就可以随时无密钥访问各个从节点了。当然,为了方便整个集群的相
互访问,我们一般可以使整个集群中的所有主机都可以相互远程登录,这样
也有利于后续的问题排查。
4