项目编号:
河北金融学院大学生科学研究项目
立项申报书
项目名称:基于大数据的学生人口属性
建模及其在智慧校园中的应用
申 请 者:
贾玉其
所在系院:
信息管理与工程系
年级专业: 13 级计算机科学与技术
指导老师:
何志强
申请日期:2013 年 9 月 23 日
申报种类: 一般科学研究项目
项目类别(在相应的类别上打√)
√A、自然科学类论文
B、哲学社会科学类社会调查报告和学术论文
C、科技发明制作类
共青团河北金融学院委员会制
填写说明
一、表格中的字体为小四号、宋体,签字部分需以黑色钢笔或水笔签
名。采用 A4 纸打印,于左侧装订成册。
二、本申请书一式 3 份,必须经过所在系(院)初审,由所在系(院)
签署意见、加盖公章后在规定时间内统一报送校团委,团委不接受个
人申报。
三、封面“项目编号”一栏由校团委填写。
四、申报种类为重点科学研究项目或者一般科学研究项目。
五、项目论证页可根据需要进行扩展。
六、项目组成员(含负责人)至多 8 人。指导教师至多 2 人。
七、每位申请人只允许申报一个项目。在以前批次大学生科学研究项
目已立项但未完成结项的同学,不得申报此次大学生科研项目。
八、项目名称应切实反映研究内容和范围,最多不超过 25 个汉字(包
括标点符号)。
九、有关其他事宜请向校团委咨询。
承 诺 书
我对所填写的各项内容的真实性负责,保证没有知识产权争议。如获准立
项,我与本项目组成员承诺以本申报书为有约束力的协议,严格遵守学校有关政
策和规定,按计划认真开展研究和实践工作,按时报送有关材料,实现预期研究
成果,保证做到恪守学术诚信。河北金融学院有权使用本项目所有数据和资料。
申请者(签名): 贾玉其
2013 年 9 月 23 日
确 认 函
我已经认真评阅了该小组的科研立项申报书,以及河北金融学院大学生科学
研究的相关规定和政策。我认为该件作品具有一定的研究意义、创新性和可行性。
如果获准立项,我将认真负责地指导该项目小组成员按要求开展研究工作,监督
项目经费的使用情况,取得预期研究成果。
指导老师(签名):
年 月 日
一、学生团队及指导老师基本情况
1.项目情况
项目名称
项目来源
申报种类
成果形式
起止时间
2.负责人(学生)
□学生自选立题
√教师指导选题
□重点科学研究项目
√一般科学研究项目
论文
姓名
贾玉其 性别 男 电话 15933770739 学号 20131209011037
系(院) 信息管理与工程
年级
专业
13 级计算机科学与技术 签字 贾玉其
3.参与学生情况
学号
20131209011037
姓
名
贾 玉
其
系院
年级专业
联系电话
签字
13 级 计 算 机 科
信 管 系
15933770739
贾 玉 其
学 与 技 术
13 级 计 算 机 科
20131209011035
李 佳 信 管 系
15933769683
李 佳
学 与 技 术
13 级 计 算 机 科
信 管 系
15633723837
李 倩 文
学 与 技 术
13 级 计 算 机 科
信 管 系
18830205237
钱 雪 蒙
学 与 技 术
20131209011026
20131209011025
李 倩
文
钱 雪
蒙
4.指导教师情况
姓名
性别 职务/
所属单位
联系电话
签字
职称
何志强
男 副教授
3338210
信息管理与工
程系
信息管理与工
申晨
男
助教
3338010
程系
B 表 (从本页开始,下面均不得出现主持人和项目组其他成员的姓名)
二、项目基础
已开展的与本项目相关工作。
我组研究的主要工作是基于校园一卡通大数据的数据挖掘,主要针对校园一卡通
系统内已经整理好的、结构化的数据库中的数据,使用有效的数据挖掘算法对海量数
据进行分析挖掘,建立相关学生行为模型,为学校学生管理工作提供科学的建议和相
关工作提供合理的依据。
我组学生都是计算机专业学生,有一定的编程基础,而且已经学习过数据库、数
据结构等相关数据挖掘方面研究的课程,完成过与数据库相关的课程设计,在各类比
赛中做过相关研究工作,如挑战杯的雾霾天气下新型城市交通系统的大数据研究,数
学建模的荒漠区动植物关系的大数据研究等。其他学校对校园一卡通数据挖掘进行的
研究工作,我们也有了一定的深入了解,对现在主流的数据挖掘的研究算法,如神经
网络、决策树、统计分析方法等有一定的认识和接触。
其次,本次研究工作的指导老师从事过相关的数据挖掘研究工作,也指导过相关
学生研究工作。
我组研究团队对此次基于校园一卡通的大数据挖掘分析工作有一定的研究基础,
相关的数据挖掘的知识算法我们已经初步掌握,有很多建模的经验,有不错的编程基
础,对于此次的项目研究,我组人员有很强的信心。
三、项目论证
1、选题:本项目研究背景、研究现状述评、研究意义。2、内容:基本研究内容、
研究思路、研究方法、创新点、研究进度及安排。3、预期价值:理论或实际应用价值。
1、选题:本项目研究背景、研究现状述评、研究意义。
1.1 背景
随着高校的信息化的推动,校园一卡通在高校得到了快速的发展和普及。由以前单一的后勤餐
饮系统发展为全校的校园一卡通平台,包括了食堂收费、图书馆、注册报到、宿舍管理、试验室管
理、教学等多个系统,涉及到全校师生的授(上)课、消费、科研、管理方方面面。学生从一入校到
最后毕业,所有的行为均可以在校园一卡通平台中找到相应的足迹。可以说,校园一卡通数据标识了
师生在学校的日常活动,记录了师生在学校中的各种行为。由此产生了海量的数据,如何从如此海量
的数据中发现隐藏的且有用的知识,创造更大的效用是一个迫切需要研究的课题。
1.2 研究现状评述
校园一卡通系统经过了多年的建设及使用,通过对各种这样的有效继承、整合和优化,实现了
资源的有效配置和充分利用,实现了校务管理和服务流程的优化、协调,以及教学、学习、生活流
程的优化,提高了各种服务和服务工作的效率。但高校在设计校园一卡通系统的时候,满足了校园
卡管理系统的功能要求和实际应用需求,实现了具体的功能,而数据库最大的作用是收集存储数据
以及提供查询等,多年来积累的海量数据并没有为学习的管理和决策提供有效的支持,缺乏对数据
有效的挖掘和分析。近几年国内很多高校意识到利用校园一卡通的相关数据进行某些方面的挖掘研
究,如武汉理工大学的学生经济状况与资助合理性评判系统、山东大学的贫困生评议等等,事实表
明,利用校园一卡通的海量数据进行分析挖掘方面的研究,对校园一卡通的深入建设以及推动学校
往更科学的管理方向上发展都是有重要的现实意义。
1.3 研究意义
以校园卡交易数据为研究对象,通过数据仓库、OLAP、数据挖掘技术的综合运用来挖掘校园卡
信息中的有用信息是十分必要的。随着校园一卡通的发展和推进,对一卡通系统的数据进行深度挖
掘及充分发挥数据的决策功效正被越来越重视,任何政策来源的基础是客观事实,数据就是事实的
客观体现。数据的反作用会对学校的决策起着相辅的作用。发现数据之间的关联以及数据与学生行
为和人口属性特征之间的关系,对于掌握教学工作动态、学生学习状态、生活状态等,进而改进教
学、学生服务工作有重要意义,也为未来学校综合信息知识获取的进一步研究、构造完整的分析平
台以及实现更高层次的领导决策支持整体框架打下了一定的基础。
2、内容:基本研究内容、研究思路、研究方法、创新点、研究进度及安排。
2.1 内容
我们可以通过一些科学的数据挖掘算法,得到一些可靠结论,这是毋庸置疑的。具体的,我们
对校园一卡通的主要系统进行数据挖掘,比如消费系统的挖掘,身份识别类数据分析等。
1、消费缴费情况分析,统计就餐人员的情况后可以帮助食堂改进饭菜质量,提出服务水平,即增
加了收入,又侧面保护了学生利益和安全;还可以根据学生交费、报到、及消费情况的分析,可以统
计出贫困学生相关情况,学校在制定和贯彻国家贫困生政策时有客观的数据可依。而且通过持续的
记录分析,可以分析学生领到的贫困补助用在了哪些方面;可以统计学校贫困生的数量及日常生活
规律,更有利于制定相应的扶持政策。
2、宿舍、校门出入数据分析,学生在校内的出入信息特别是在特定时间内的出入信息能够标
明学生一些特殊行为状况。校门出入的数据能够分析出在一定时间段内学生外出情况。在特定的时
期,比如晚上 10 点以后的学生的出入校门的记录可以分析是哪些系、哪班的人,哪些人经常性晚归。
宿舍的出入记录能够准实时点名,可以查看学生在一定时间段内是否回宿舍。可以根据晚归的学生
记录进行警告或制定相应的管理措施。
3、图书馆借书阅读情况分析,学生的借书数据及进行图书馆出入记录可以统计图书馆流量,清
楚显示学生在图书馆借书情况及在图书馆停留的时间,不但可以统计出哪类图书更受学生欢迎,而
且我们可以粗略判定,在图书馆、期刊室停留时间越长,表明学生学习的时间越长,与学生的成绩进
行对比,可以了解成绩优异的学生与图书馆的关系。另外,图书馆内部细分的许多的书库,根据学生
的借书记录,可以统计出书库的人员流量,可以分析出哪些书库的书是学生经常借出的,也就是比较
受欢迎的,根据流量的数据,来进行书库书籍的设置和调整。还可以根据书库的书的借出情况,分析
受学生喜欢的书籍的类型,调整图书馆书籍的采购计划。
4、对消费缴费情况、宿舍出入情况和图书馆借阅情况进行拟合,科学的得到三者之间存在的
隐性关系。比如消费高的人可能会宿舍比较晚。
根据师生在校的行为产生海量记录,根据特定人群,我们可以利用这些数据分析特定人群的日
常行为,并且以统计图的形状加以展示(如饼图)。统计图可以针对个人,也可以针对特定郡体。根据
数据可以统计一段时间内去图书馆情况,消费情况、上课情况、考勤情况、上机情况……从而全面
分析出师的日常行为,学校领导不仅能够实时掌握,对校领导的决策也能起来至关重要的作用。
2.2 研究思路
校园一卡通的数据挖掘可以分为三个步骤:
第一步:数据的预处理。目的是将未加工的输入数据转换为合适分析的形式,包括数据清理、
数据集成、数据选择和数据交换四个环节;
第二步:数据挖掘。是数据库知识发现的核心部分,将数据预处理的结果进行挖掘,从中提取
数据模式;
第三步:后处理,包括模式评估和知识表示。模式评估根据领域知识从提取出的数据模式中识
别真正有用的知识。知识表示则将有用的知识以各种可视化的形式(规则、数据模型、图表等)提
交给决策者或者决策支持系统。
2.3 研究方法
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,
KDD),就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单
的说,数据挖掘就是从大量数据中提取或“挖掘”知识。目前主要方法有神经网络方法、遗传算法、
决策树方法、粗集方法、统计分析方法等。
神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和高度容错等特性非
常适合解决数据挖掘的问题。
遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。遗
传算法具有的隐含并行性、易于和其它模型结合等性质使得它在数据挖掘中被加以应用。
决策树方法是一种常用于预测模型的算法,它通过将大量数据有目的分类,从中找到一些有价
值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别适合大规模的数据处理
粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点:不需要给出额外
信息;简化输入信息的表达空间;算法简单,易于操作。
统计分析方法在数据库字段项之间存在两种关系:函数关系(能用函数公式表示的确定性关系)
和相关关系(不能用函数公式表示,但仍是相关确定性关系),对它们的分析可采用统计学方法,
即利用统计学原理对数据库中的信息进行分析。
2.4 研究进度及安排
我组计划安排在 6-8 月内完成本项研究工作,前期工作阅读大量有关数据挖掘方面的研究论文,
对他人的研究方法有一定的了解,并且对我校校园一卡通的相关数据进行采集;中期工作完成与本
次校园一卡通数据挖掘相关环境的搭建,然后完成相关数据的研究;后期工作从研究结果中提取相
关学生行为模型并完成研究论文,整理档案。
3、预期价值:理论或实际应用价值。
以学校各个数据源整合为基础,以数据挖掘算法为核心,试图发信息数据之间的关联以及数据
与学生行为和人口属性特征之间的关系,用于掌握教学工作动态、学生学习状态、生活状态等,进
而改进教学、学生服务工作。
根据学生消费系统、图书馆管理系统、宿舍出入管理系统、学生教室门禁系统等不同系统,使
用神经网络方法、遗传算法、决策树方法、粗集方法、统计分析等数据挖掘分析方法,为学校每年
的贫困生补助发放、图书馆书籍管理、学生管理等方面提供决策依据和决策建议。
根据学生的基本信息、绩效信息、学习历史、学习偏好、知识结构等己有信息,利用数据挖掘
功能分析学习者特征,帮助学习者修正自己的学习行为。通过对学习者特征分析结果和事先制定的