logo资料库

《大数据技术原理及应用》课程报告.pdf

第1页 / 共60页
第2页 / 共60页
第3页 / 共60页
第4页 / 共60页
第5页 / 共60页
第6页 / 共60页
第7页 / 共60页
第8页 / 共60页
资料共60页,剩余部分请下载后查看
《大数据技术原理及应用》实验报告
第一章 实验介绍
1.1 实验内容
1.2 相关软件及试验操作介绍
第二章 环境准备
2.1 Hadoop环境配置
2.1.1 SSH无密码登录
2.1.2 JAVA环境安装
2.1.3 伪分布式配置及启动
2.1.4 问题小结及思考
2.2 MySQL环境配置
2.2.1 MySQL安装
2.2.2 问题小结及思考
2.3 HBase环境配置
2.3.1 HBase安装
2.3.2 伪分布式配置及启动
2.3.3 问题小结及思考
2.4 Hive环境配置
2.4.1 Hive安装
2.4.2 配置及启动
2.4.3 问题小结及思考
2.5 Sqoop环境配置
2.5.1 Sqoop安装
2.5.2 环境配置及启动
2.6 Eclipse安装
第三章 本地数据集上传到数据仓库
3.1 本地数据预处理
3.2 上传数据至Hive
3.2.1 数据上传到HDFS
3.2.2 数据导入Hive
3.3 问题小结及思考
第四章 Hive数据分析
4.1 简单查询分析
4.2 查询条数统计分析
4.3 关键字条件查询分析
4.4 根据用户行为分析
4.5 用户实时查询分析
4.6 问题小结及思考
第五章 Hive、MySQL、HBase数据互导
5.1 创建临时表
5.2 Hive数据导向MySQL
5.3 MySQL数据导向HBase
5.4 本地数据导向HBase
5.5 问题小结及思考
第六章 数据可视化分析
6.1 可视化工具安装
6.2 可视化分析
6.3 问题小结及思考
第七章 心得体会
中 国 地 质 大 学 研究生课程论文封面 课 程 名称 大数据技术原理及应用 教 师 姓名 吴湘宁 研究生姓名 涂大喜 研究生学号 1201711353 研究生专业 信息安全 所 在 院系 计算机学院 类 别: B.硕士 日 期: 2018 年 1 月 10 日
评 语 对课程论文的评语: 平时成绩: 总 成 绩: 课程论文成绩: 评阅人签名: 注:1、无评阅人签名成绩无效; 2、必须用钢笔或圆珠笔批阅,用铅笔阅卷无效; 3、如有平时成绩,必须在上面评分表中标出,并计算入总成绩。
中国地质大学(武汉) 目录 2.1 《大数据技术原理及应用》实验报告 .....................................................................1 第一章 实验介绍 ..............................................................................................1 1.1 实验内容 ..............................................................................................1 1.2 相关软件及试验操作介绍 .....................................................................2 第二章 环境准备 ..............................................................................................3 Hadoop 环境配置 ..................................................................................3 2.1.1 SSH 无密码登录 ............................................................................4 2.1.2 JAVA 环境安装 ..............................................................................5 2.1.3 伪分布式配置及启动 .....................................................................6 2.1.4 问题小结及思考 ............................................................................9 2.2 MySQL 环境配置................................................................................ 11 2.2.1 MySQL 安装................................................................................ 11 2.2.2 问题小结及思考 .......................................................................... 12 2.3 HBase 环境配置 .................................................................................... 13 2.3.1 HBase 安装.................................................................................. 13 2.3.2 伪分布式配置及启动 ................................................................... 14 2.3.3 问题小结及思考 .......................................................................... 16 2.4 Hive 环境配置 ....................................................................................... 17 2.4.1 Hive 安装 .................................................................................... 17 2.4.2 配置及启动 ................................................................................. 18 2.4.3 问题小结及思考 .......................................................................... 18 2.5 Sqoop 环境配置..................................................................................... 19 2.5.1 Sqoop 安装 .................................................................................. 19 2.5.2 环境配置及启动 .......................................................................... 20 2.6 Eclipse 安装 .......................................................................................... 21 第三章 本地数据集上传到数据仓库 ................................................................ 21 3.1 本地数据预处理 .................................................................................... 22 3.2 上传数据至 Hive ................................................................................... 23 3.2.1 数据上传到 HDFS........................................................................ 23 3.2.2 数据导入 Hive ............................................................................. 24 3.3 问题小结及思考 ................................................................................. 25 Hive 数据分析 .................................................................................... 27 4.1 简单查询分析 ..................................................................................... 27 4.2 查询条数统计分析 .............................................................................. 28 4.3 关键字条件查询分析 .......................................................................... 30 4.4 根据用户行为分析 .............................................................................. 32 4.5 用户实时查询分析 .............................................................................. 36 4.6 问题小结及思考 ................................................................................. 37 第四章
中国地质大学(武汉) 第五章 Hive、MySQL、HBase 数据互导 ........................................................ 39 5.1 创建临时表 ........................................................................................ 39 5.2 Hive 数据导向 MySQL ........................................................................ 40 5.3 MySQL 数据导向 HBase ..................................................................... 43 5.4 本地数据导向 HBase........................................................................... 44 5.5 问题小结及思考 ................................................................................. 47 第六章 数据可视化分析 ................................................................................. 47 6.1 可视化工具安装 ................................................................................. 47 6.2 可视化分析 ........................................................................................ 49 6.3 问题小结及思考 ................................................................................. 54 第七章 心得体会 ............................................................................................ 55
中国地质大学(武汉) 《大数据技术原理及应用》实验报告 第一章 实验介绍 1.1 实验内容 本人在二选一的实验内容中选择实验一:网站用户行为分析,该实验手 册由厦门大学数据库实验室团队编写,旨在锻炼学生在大数据学习过程中对 大数据原理及技术应用能力。本案例涉及数据预处理、存储、查询和可视化 分析等数据处理全流程所涉及的各种典型操作,涵盖 Linux、MySQL、Hadoop、 HBase、Hive、Sqoop、R、Eclipse 等系统和软件的安装和使用方法。实际完 成的实验任务有:  安装 Linux 操作系统;  安装关系型数据库 MySQL;  安装大数据处理框架 Hadoop;  安装列族数据库 HBase;  安装数据仓库 Hive;  安装 Sqoop;  安装 R;  安装 Eclipse;  对文本文件形式的原始数据集进行预处理;  把文本文件的数据集导入到数据仓库 Hive 中;  对数据仓库 Hive 中的数据进行查询分析;  使用 Sqoop 将数据从 Hive 导入 MySQL;  使用 Sqoop 将数据从 MySQL 导入 HBase;  使用 HBase Java API 把数据从本地导入到 HBase 中;  使用 R 对 MySQL 中的数据进行可视化分析; 1
《大数据技术原理及应用》课程报告 1.2 相关软件及试验操作介绍 本实验所涉及的系统及软件总体概览图如下: 实验所需的软件配置完成后,实验环境正常时需要进行的实验操作简略图如 下所示: 图 1 实验所用软件总体框架图 图 2 实验所要操作概览图 在实验手册中列出的实验内容中,因为前半部分主要为实验环境的配置 内容,所以在我的实验报告书中我会将这些配置工作写入到一节中,并将每 个配置过程遇到了问题汇总并记录解决方案。总体实验步骤为:实验环境准 备、本地数据上传到数据仓库 Hive、Hive 数据分析、Hive 与 MySQL 与 HBase 数据互导、利用 R 进行可视化分析。每个实验过程的详细操作、问题汇总 及解决方案都会在后续的章节中分别给出。 2
中国地质大学(武汉) 第二章 环境准备 本章内容主要锻炼了我对双操作系统安装、虚拟机安装、Linux 基本操 作、Hadoop 安装、HBase 安装、Sqoop 安装、Eclipse 安装等等方面的操作 能力。同时也使我对 Linux 操作系统、大数据处理架构 Hadoop 的关键技术 及其基本原理、列族数据库 HBase 概念及其原理、数据仓库概念与原理、 关系型数据库概念与原理产生相应了解。 2.1 Hadoop 环境配置 在 Hadoop 配置之前,我的实验环境首先是在 VM 上搭载的虚拟机 Ubuntu 14.04.3 版本,选择的 Hadoop 软件版本为 2.7.4,如下图所示: 图 3 Hadoop 软件版本 本次实验采用的是在 Ubuntu 系统中搭建伪分布式的 Hadoop 环境。因 为在一个真实 Hadoop 集群中时可能会存在着成千上万台机器,而每次启动 Hadoop 集群时不能够逐一开启,而是只需要启动我们的 NameNode 后,从 Master 节点远程到所有 Slaver 节点上启动从节点的进程,而这一过程往往就 需要我们的进行下一步配置:SSH 登录。 3
《大数据技术原理及应用》课程报告 2.1.1 SSH 无密码登录 集群、单节点模式都需要用到 SSH 登陆(类似于远程登陆,你可以 登录某台 Linux 主机,并且在上面运行命令),Ubuntu 默认已安装了 SSH client,此外还需要安装 SSH server,安装命令如下:  sudo apt-get install openssh-server 在安装完成之后便可以使用下列命令登录到 localhost:  ssh localhost 此时会有如下提示(SSH 首次登陆提示),输入 yes 。然后按提示输入密 码 hadoop,这样就登陆到本机了。但这样登陆是需要每次输入密码的,而 且当集群中存在很多台机器时,这样就会非常的麻烦,所以我们需要配置成 SSH 无密码登陆比较方便。这时候我们可以新开一个终端,执行下列命令来 配置我们 SSH 无密码认证工作:  cd ~/.ssh/ # 若没有该目录,请先执行一次 ssh localhost  ssh-keygen -t rsa # 会有提示,都按回车就可以  cat ./id_rsa.pub >> ./authorized_keys # 加入授权 上述命令中第二步是生成 rsa 方式下的密钥,这里同样也是可以产生 des 方式的密钥的。第三步则是将上一步产生的密钥添加到本地认证密钥文件中, 这样一来持有该秘钥的主机在登录本机时均可以通过无密码的 SSH 登录方 式来访问本机。依次类推,当在真实地 Hadoop 集群中时则可以将每一台 Slavers 主机上产生的密钥全都添加到 Master 节点的认证文件中,这样一来 主节点就可以随时无密钥访问各个从节点了。当然,为了方便整个集群的相 互访问,我们一般可以使整个集群中的所有主机都可以相互远程登录,这样 也有利于后续的问题排查。 4
分享到:
收藏