logo资料库

基于大数据的学生上网行为分析设计说明书.pdf

第1页 / 共47页
第2页 / 共47页
第3页 / 共47页
第4页 / 共47页
第5页 / 共47页
第6页 / 共47页
第7页 / 共47页
第8页 / 共47页
资料共47页,剩余部分请下载后查看
QQ:792042913 毕业设计说明书 基于大数据技术的学生上网行为 分析系统设计 学生姓名: xx 学号: xxxxx 学 专 院: 业: 计算机与控制工程学院 计算机科学与技术 指导教师: xx 2016 年 6 月
QQ:792042913 基于大数据技术的学生上网行为分析系统设计 摘 要 伴随着互联网的普及与发展,人们通过网络交流日益频繁,同时,互联网已经 日益成为人们获取信息的重要渠道。学生用户使用搜索引擎查询一些信息的时候, 会产生相应的查询日志。而这些查询日志中包含着用户有用的信息,可以从这些信 息中分析出用户的真实需求及隐形需求。随着 Hadoop 分布式处理框架的兴起,给 海量用户上网日志的研究带来了巨大的希望。 基于以上的技术发展与查阅大量相关期刊,本论文通过对用户搜索引擎搜索日 志进行详细的分析,利用 hadoop 框架为基础,运用 HDFS 分布式文件系统存储日志 与 MapReduce 计算框架,同时配合可视化技术,设计了一个基于大数据的学生上网 行为分析系统。该系统主要包含了三个模块,日志分析模块,日志存储模块,可视 化展示模块。其中对日志的分析从四个维度进行,即学生用户搜索次数排行,关键 词排行分析,时间分析。其中日志的存储模块分为 HDFS 存储模块与 Mysql 存储模 块。可视化展示模块是对分析得的结果进行直观的展示。最终通过测试验证了系统 的可行性。 关键词:Hadoop ,java ee ,查询日志 ,学生行为分析
QQ:792042913 The Design of the Student Behavior Analysis System Based On Big Data Abstract With the popularization and development of the Internet, people communicate with . each other through the network for the exchange of information were frequent However,Internet has increasingly become a very important channel for the access to information .Student users using a search engine query some information will produce the corresponding query log,And these user query log Which can analyze the user's real demand and stealth requirements contains useful information.With the rise of the Hadoop distributed processing framework, the massive user's web log research are of great hope. Based on the above technology development and a large number of relevant journals, this paper use the hadoop framework as the basis through a detailed analysis of the user search log, and apply the hadoop distributed file system HDFS to storing log and the graphs computing framework of MapReduce, at the same time cooperate with visualization technology to design a student online behavior analysis system based on big data.The system mainly includes three modules:log analysis module, the log storage module, visual display module. the analysis of the log is from four dimensions,which include the student number of users' search ranking, keyword ranking analysis, time analysis.The log storage module is divided into HDFS storage module and Mysql storage module. Visual display module intuitively display the analysis of the results . Finally the feasibility of the system is verified by test. Key words:hadooop , java ee , Query log , Student behavior analysis
2016 届 毕 业 设 计 说 明 书 QQ: 792042913 目 录 1 绪论................................................................1 1.1 研究背景及意义....................................................1 1.1.1 研究背景........................................................1 1.1.2 研究意义........................................................1 1.2 国内外研究现状....................................................1 1.3 论文主要工作......................................................2 1.4 论文结构..........................................................2 2 相关技术介绍........................................................4 2.1 Hadoop 概述........................................................4 2.1.1 HDFS 介绍........................................................5 2.1.2 MapReduce 介绍...................................................6 2.2 可视化技术概述....................................................7 3 学生行为分析系统总体设计............................................8 3.1 需求分析 .........................................................8 3.1.1 开发背景与目的..................................................8 3.1.2 系统功能需求分析................................................9 3.2 系统总体架构设计.................................................10 3.2.1 Hadoop 集群层...................................................11 3.2.2 HDFS 存储层.....................................................11 3.2.3 MapReduce 计算层................................................12 3.2.4 Mysql 数据库存储层..............................................12 3.2.5 用户接口层.....................................................14 4 学生行为分析系统详细设计...........................................15 4.1 日志存储模块详细设计.............................................15 4.1.1 HDFS 分布式存储模块.............................................15 4.1.2 Mysql 数据库存储模块............................................16 4.2 日志分析模块详细设计.............................................18 第 I 页 共 II 页
2016 届 毕 业 设 计 说 明 书 QQ: 792042913 4.2.1 学生搜索次数排行分析...........................................19 4.2.2 学生搜索关键词排行分析.........................................21 4.2.3 学生点击 URL 排行分析...........................................21 4.2.4 学生上网时间排行分析...........................................21 4.2.5 学生上网日期排行分析...........................................22 4.3 可视化模块详细设计...............................................23 4.3.1 可视化数据来源设计.............................................23 4.3.2 数据可视化工具.................................................24 5 学生行为分析系统实现...............................................26 5.1 实验环境介绍.....................................................26 5.2 实验环境搭建.....................................................26 5.2.1 配置 java 环境..................................................26 5.2.2 配置 SSH 无密码登陆环境.........................................27 5.2.3 配置 hadoop 集群................................................29 5.2.4 配置 eclipse 编程环境...........................................32 5.3 实验过程与结果展示...............................................33 5.3.1 数据来源.......................................................33 5.3.2 数据导入展示...................................................34 5.3.3 登陆界面.......................................................36 5.3.4 实验数据分析展示...............................................37 结论.................................................................40 参考文献.............................................................41 致谢.........................:.......................................43 第 I 页 共 II 页
2016 届 毕 业 设 计 说 明 书 QQ: 792042913 1. 诸论 1.1 研究背景及意义 而今我们在互联网时期,越来越多的人使用搜索引擎来查找信息。当用户使用 搜索引擎来获取信息,整个过程都被记载下来,包含用户的上网日志。通过日志的分 析用户的上网行为,可以为搜索引擎优化和改进提供宝贵的参考意见。 1.1.1 研究背景 伴随信息时期的到来,同时网络的快速发展,由于互联网具有多媒体的优势, 被逐渐增加的人所接受与纳用。校园数据的不断增长,智慧校园工程也在持续发展, 其积累的数据将会迅速膨胀,校园数据不断朝着大数据化方向发展[1]。网络的普及, 给当代大学生带来了多彩多色的校园生活。同时,也带来了许多意想不到的危害, 例如学生绿色安全上网行为监督。在学习与生活当中,当代大学学生如何正确利用 网络,其中出现了那些问题,如何及时发现这些问题,更好的为学生服务是当今高 校必须要面对的问题。 经过多年积累,人类的数据量存储 HDFS,数据处理 MapReduce 技术和能力都 得到质的飞跃,大数据时代的到来带来了诸多变革性的变化而校园网络数据的泛起 则是亲身教传的一次革命[2]。这些都为如何引导绿色上网提供了研究方向。 1.1.2 研究意义 学生上网行为的研究是对校园内的学生的相应上网日志进行分析和挖掘得出 学生的各种行为倾向与规律,从而开发出一个学生上网的行为分析系统,通过此系 统分析出学生的行为特征,要是可以进行实时分析,还可以及时掌握学生的行为发 展趋势。同时识别一些异常的网络行为,最后将可能有异常行为发生的用户列举, 以便于学校采取对应的策略或者措施引导学生健康上网,从而使互联网真正成为学 生获取知识的平台,从而来提高学生整体的综合素质。 1.2 国内外研究现状 从上个世纪末期开始,国外就开始对一些著名的搜索引擎如 Altavista, Excite,Infoseek, Yahoos}等的查询日志进行研究分析[3]。由于互联网技术的发展 和互联网用户的飞快增长,特别是 Google 在近年来在搜索引擎领域取得的巨大进 步,使得用户查询日志越发受到相关学者的研究。在美国计算机协会(Association 第 1 页 共 43 页
2016 届 毕 业 设 计 说 明 书 QQ: 792042913 forComputing Machinery)的关于人机交互的会议上,Card [4]等人发布了其关于互 联网用户在的信息搜索行为方面的研究;Parlk[5]通过对 NHN 公司旗下韩国著名门户 /搜索引擎网站 NAVER 的搜索日志进行分析来研究用户的检索行为;T.Yan[6]通过挖 掘分析 Web 日志来对参与搜索的用户进行聚类;CraigSiiverstein[7]等人在对大型 的搜索引擎上的用户查询日志进行分析后得出,有超过 85%的用户在进行搜索时只 查看了第一页的查询结果。 由于中英文语法的存在着巨大的差异,同时中国,外国不同用户使用信息检索 式的巨大差别,国外的一些研究成果在国内也并不适用,从而国内学者也在用户查 询日志的方面进行了一些研究。 刘梦超,肖基荣,陈荣在《数据挖掘在用户上网行为分析》[8]中的应用研究中 挖掘出在特定时间段内用户的上网行为模式和潜在的上网规律。李常先在《校园用 户网络行为分祈系统研究》[9]中通过对校园网络日志的分析,从而发现用户上网的 规律。梁伟在《校园网用户行为分析系统研究与实现》[10]中针对用户群体行为五个 方面进行研究,有在线人数统计分析,用户上网时间的分析,上网流量的分析等。 1.3 论文主要工作 本文通过对搜索引擎的搜索日志进行分析,利用 hadoop 框架,将搜索日志上 传到 HDFS 系统中,之后利用 MapReduce,从各个维度分析数据,最后将分析结果 导入到数据库中,并在 java web 前端进行可视化展示,从而设计成基于大数据的 学生行为分析平台。学生行为分析平台主要包括日志存储模块,分析模块,以及可 视化展示模块。其中日志分析模块包括关键字分析,URL 分析,上网时间分析,日 点击量分析,学生点击日期分析五个方面进行。最后,通过实验验证了系统的可行 性。 1.4 论文结构 论文主要对基于大数据中学生上网行为分析和研究,论文一共五个章节。 第一章:绪论。从论文的背景,意义,讲解了论文研究的可行性,然后介绍了 国内外的研究情况,最终给出了论文做的主要工作,同时给出了论文的总体结构。 第二章:相关技术的介绍。对论文涉及到的一些主要技术做了简要的介绍,着 重介绍了 HDFS 分布式文件系统与 MapReduce 计算模型,同时介绍了数据可视化的 相关技术。 第 2 页 共 43 页
2016 届 毕 业 设 计 说 明 书 QQ: 792042913 第三章:学生上网行为分析系统总体设计。从系统功能需求,数据需求等角度 分析系统,将系统划分为多个模块,以及初次给出了整个系统架构图。 第四章:学生上网行为分析系统详细设计。根据上一章的系统功能需求,按部 就班的给出各个模块的详细设计,同时给出了整个系统完成的时候需要的算法及关 键代码。 第五章:学生上网行为分析系统实现。此章除了介绍系统所需要的软硬件,又 给出了整个系统最终的成品展示。 第 3 页 共 43 页
分享到:
收藏