中  国  地  质  大  学 
研究生课程论文封面 
课 程 名称  大数据技术原理及应用 
教 师 姓名         
    吴湘宁                
研究生姓名              涂大喜                 
研究生学号            1201711353           
研究生专业              信息安全             
所 在 院系            计算机学院           
类            别:              B.硕士                 
日            期:      2018  年 1  月  10 日   
 
 
 
 
 
 
 
评        语 
对课程论文的评语: 
 
 
 
平时成绩: 
总  成  绩: 
课程论文成绩: 
评阅人签名: 
注:1、无评阅人签名成绩无效; 
2、必须用钢笔或圆珠笔批阅,用铅笔阅卷无效; 
3、如有平时成绩,必须在上面评分表中标出,并计算入总成绩。 
 
 
中国地质大学(武汉) 
目录 
2.1 
《大数据技术原理及应用》实验报告 .....................................................................1 
第一章  实验介绍 ..............................................................................................1 
1.1  实验内容 ..............................................................................................1 
1.2  相关软件及试验操作介绍 .....................................................................2 
第二章  环境准备 ..............................................................................................3 
Hadoop 环境配置 ..................................................................................3 
2.1.1    SSH 无密码登录 ............................................................................4 
2.1.2    JAVA 环境安装 ..............................................................................5 
2.1.3    伪分布式配置及启动 .....................................................................6 
2.1.4    问题小结及思考 ............................................................................9 
2.2  MySQL 环境配置................................................................................ 11 
2.2.1    MySQL 安装................................................................................ 11 
2.2.2    问题小结及思考 .......................................................................... 12 
2.3    HBase 环境配置 .................................................................................... 13 
2.3.1    HBase 安装.................................................................................. 13 
2.3.2    伪分布式配置及启动 ................................................................... 14 
2.3.3    问题小结及思考 .......................................................................... 16 
2.4    Hive 环境配置 ....................................................................................... 17 
2.4.1    Hive 安装 .................................................................................... 17 
2.4.2    配置及启动 ................................................................................. 18 
2.4.3    问题小结及思考 .......................................................................... 18 
2.5    Sqoop 环境配置..................................................................................... 19 
2.5.1    Sqoop 安装 .................................................................................. 19 
2.5.2    环境配置及启动 .......................................................................... 20 
2.6    Eclipse 安装 .......................................................................................... 21 
第三章  本地数据集上传到数据仓库 ................................................................ 21 
3.1    本地数据预处理 .................................................................................... 22 
3.2    上传数据至 Hive ................................................................................... 23 
3.2.1    数据上传到 HDFS........................................................................ 23 
3.2.2    数据导入 Hive ............................................................................. 24 
3.3  问题小结及思考 ................................................................................. 25 
Hive 数据分析 .................................................................................... 27 
4.1  简单查询分析 ..................................................................................... 27 
4.2  查询条数统计分析 .............................................................................. 28 
4.3  关键字条件查询分析 .......................................................................... 30 
4.4  根据用户行为分析 .............................................................................. 32 
4.5  用户实时查询分析 .............................................................................. 36 
4.6  问题小结及思考 ................................................................................. 37 
第四章 
 
中国地质大学(武汉) 
第五章 
Hive、MySQL、HBase 数据互导 ........................................................ 39 
5.1  创建临时表 ........................................................................................ 39 
5.2 
Hive 数据导向 MySQL ........................................................................ 40 
5.3  MySQL 数据导向 HBase ..................................................................... 43 
5.4  本地数据导向 HBase........................................................................... 44 
5.5  问题小结及思考 ................................................................................. 47 
第六章  数据可视化分析 ................................................................................. 47 
6.1  可视化工具安装 ................................................................................. 47 
6.2  可视化分析 ........................................................................................ 49 
6.3  问题小结及思考 ................................................................................. 54 
第七章  心得体会 ............................................................................................ 55 
 
 
 
 
 
中国地质大学(武汉) 
《大数据技术原理及应用》实验报告 
第一章  实验介绍 
1.1 实验内容 
本人在二选一的实验内容中选择实验一:网站用户行为分析,该实验手
册由厦门大学数据库实验室团队编写,旨在锻炼学生在大数据学习过程中对
大数据原理及技术应用能力。本案例涉及数据预处理、存储、查询和可视化
分析等数据处理全流程所涉及的各种典型操作,涵盖 Linux、MySQL、Hadoop、
HBase、Hive、Sqoop、R、Eclipse 等系统和软件的安装和使用方法。实际完
成的实验任务有: 
 安装 Linux 操作系统; 
 安装关系型数据库 MySQL; 
 安装大数据处理框架 Hadoop; 
 安装列族数据库 HBase; 
 安装数据仓库 Hive; 
 安装 Sqoop; 
 安装 R; 
 安装 Eclipse; 
 对文本文件形式的原始数据集进行预处理; 
 把文本文件的数据集导入到数据仓库 Hive 中; 
 对数据仓库 Hive 中的数据进行查询分析; 
 使用 Sqoop 将数据从 Hive 导入 MySQL; 
 使用 Sqoop 将数据从 MySQL 导入 HBase; 
 使用 HBase Java API 把数据从本地导入到 HBase 中; 
 使用 R 对 MySQL 中的数据进行可视化分析; 
 
 
1 
《大数据技术原理及应用》课程报告 
1.2 相关软件及试验操作介绍 
本实验所涉及的系统及软件总体概览图如下: 
实验所需的软件配置完成后,实验环境正常时需要进行的实验操作简略图如
下所示: 
图 1  实验所用软件总体框架图 
 
 
图 2  实验所要操作概览图 
在实验手册中列出的实验内容中,因为前半部分主要为实验环境的配置
内容,所以在我的实验报告书中我会将这些配置工作写入到一节中,并将每
个配置过程遇到了问题汇总并记录解决方案。总体实验步骤为:实验环境准
备、本地数据上传到数据仓库 Hive、Hive 数据分析、Hive 与 MySQL 与 HBase
数据互导、利用 R 进行可视化分析。每个实验过程的详细操作、问题汇总
及解决方案都会在后续的章节中分别给出。 
 
 
2 
中国地质大学(武汉) 
第二章  环境准备 
本章内容主要锻炼了我对双操作系统安装、虚拟机安装、Linux 基本操
作、Hadoop 安装、HBase 安装、Sqoop 安装、Eclipse 安装等等方面的操作
能力。同时也使我对 Linux 操作系统、大数据处理架构 Hadoop 的关键技术
及其基本原理、列族数据库 HBase 概念及其原理、数据仓库概念与原理、
关系型数据库概念与原理产生相应了解。 
2.1  Hadoop 环境配置 
  在 Hadoop 配置之前,我的实验环境首先是在 VM 上搭载的虚拟机
Ubuntu  14.04.3 版本,选择的 Hadoop 软件版本为 2.7.4,如下图所示: 
图 3  Hadoop 软件版本 
 
  本次实验采用的是在 Ubuntu 系统中搭建伪分布式的 Hadoop 环境。因
为在一个真实 Hadoop 集群中时可能会存在着成千上万台机器,而每次启动
Hadoop 集群时不能够逐一开启,而是只需要启动我们的 NameNode 后,从
Master 节点远程到所有 Slaver 节点上启动从节点的进程,而这一过程往往就
需要我们的进行下一步配置:SSH 登录。 
 
3 
《大数据技术原理及应用》课程报告 
2.1.1    SSH 无密码登录 
  集群、单节点模式都需要用到  SSH  登陆(类似于远程登陆,你可以
登录某台  Linux  主机,并且在上面运行命令),Ubuntu  默认已安装了  SSH 
client,此外还需要安装  SSH server,安装命令如下: 
  sudo apt-get install  openssh-server 
在安装完成之后便可以使用下列命令登录到 localhost: 
  ssh localhost 
此时会有如下提示(SSH 首次登陆提示),输入  yes  。然后按提示输入密
码  hadoop,这样就登陆到本机了。但这样登陆是需要每次输入密码的,而
且当集群中存在很多台机器时,这样就会非常的麻烦,所以我们需要配置成
SSH 无密码登陆比较方便。这时候我们可以新开一个终端,执行下列命令来
配置我们 SSH 无密码认证工作: 
  cd ~/.ssh/      #  若没有该目录,请先执行一次 ssh localhost 
  ssh-keygen  -t rsa      #  会有提示,都按回车就可以 
  cat ./id_rsa.pub  >> ./authorized_keys 
    #  加入授权 
上述命令中第二步是生成 rsa 方式下的密钥,这里同样也是可以产生 des
方式的密钥的。第三步则是将上一步产生的密钥添加到本地认证密钥文件中,
这样一来持有该秘钥的主机在登录本机时均可以通过无密码的 SSH 登录方
式来访问本机。依次类推,当在真实地 Hadoop 集群中时则可以将每一台
Slavers 主机上产生的密钥全都添加到 Master 节点的认证文件中,这样一来
主节点就可以随时无密钥访问各个从节点了。当然,为了方便整个集群的相
互访问,我们一般可以使整个集群中的所有主机都可以相互远程登录,这样
也有利于后续的问题排查。 
 
4