logo资料库

基于数据挖掘技术的WWW推荐系统设计毕业设计开题报告.doc

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
摘要
Abstract
1、课题意义及国内外研究现状综述
课题意义
国内外研究现状综述
2、学术构想与思路、主要实现内容及拟解决的关键技术
学术构想与思路
主要实现内容
拟解决的关键技术
如何实现WEB挖掘
WEB内容挖掘实现技术
WEB使用记录挖掘实现技术
能挖到什么
3、所需实验手段、研究条件和实验条件
硬件环境要求:
软件环境要求:
4、计划进度
5、主要参考文献
备注
桂林理工大学 毕业设计(论文)开题报告 基于数据挖掘技术的 WWW 推荐系统设计 学 班 学 姓 院:信息科学与工程学院 级:计本 07-3 班 号:3070417121 名:覃立泉 指导老师:陈晓辉 2011/3/6
基于数据挖掘技术的 WWW 推荐系统设计 摘要 在 Internet 飞速发展的今天,人们已经将互联网作为一个日常沟通,生活不可或缺的平 台。随之而生的网上购物这一电子商务的具体模式之一,自然而然地便成为一种时尚、流行的 购物方式。一个好的网上购物系统除了基本的商品浏览、搜索、购买和评价等功能外,还要具 备一些数据挖掘的功能,这是在系统后台运行中实现的功能,能够从日常的客户资料,交易数 据中得到挖掘分析的结果,给客户提供与他们选购的商品相关联的商品信息,给购物系统的经 营者提供商业分析的决策支持,从而提高购物系统的交易量和客户的光顾频率。本文从关联规 则和聚类分析这两种数据挖掘技术中得到启示,将商品之间按照一定的规则进行匹配连接,将 用户按照层层条件进行分类,从而实现了商品推荐和目标用户群邮件投递的功能。在购物系统 这个主体功能实现的基础上,加以修饰,完善系统功能。数据挖掘思路与 B/S 结构的网页设计 的相结合,是这个网上购物系统的核心技术。 关键词:网上购物系统;数据挖掘;决策支持 AbstractNowadays, with the rapid development of Internet, people have regarded WEB as an indispensable platform for everyday communication and life. Thus, on-line shopping, one concrete pattern of E-business is becoming a fashionable and popular way of shopping naturally. Except for searching for, purchasing, evaluating goods, an advanced on-line shopping system should have the function of data mining. Data mining is implemented at background, which can produce an analysis result on the basic of the clients’ information and the data of transaction. It provides clients with the information of goods, which are related to the goods they are purchasing; it supplies decision support to the on-line shopping system’s manager. All these are in order to bring up the transaction and increase the frequency of shopping for clients. Based on the thought of rule induction and cluster analysis, it makes connection with goods according some rule and divides clients into different clusters in this paper. Thus, the functions of recommending goods and sending email come true and the whole system’s functions are improved. Data mining and B/S structure designing are the two key techniques of this on-line shopping system. Key words: on-line shopping system; data mining; decision support 1
基于数据挖掘技术的 WWW 推荐系统设计 学位论文题目:基于数据挖掘技术的 WEB 推荐系统设计 课 题 来 源:指导老师协商分配 1、课题意义及国内外研究现状综述 课题意义 近年来,Internet 使计算机、网络、通信合而为一。网络经济、注意力经济等新概念的出 现,以其巨大的社会效益和极富挑战与机遇的内涵,成为信息科学最引人注目的研究课题。然 而,网络在快捷、方便地带来大量信息的同时,也带来了一大堆的问题:诸如信息过量难以消 化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理等等。如何快速、 准确地获得有价值的网络信息,如何理解已有的历史数据并用于预测未来的行为,如何从这些 海量数据中发现知识,导致了知识发现和数据挖掘领域的出现。知识发现(Knowledge Discovery,简称 KD)和数据挖掘(Data Mining,简称 DM)是集统计学、人工知识、模式识别、 并行计算、机器学习、数据库等技术的一个交叉性的研究领域。 知识是当今世界一种最重要的财富。数据库中的知识发现(Knowledge Discovery in Database,即 KDD)方法和数据挖掘技术,近几年受到人们的高度重视,并对其进行了深入的 研究,得到了许多有效的方法和技术。随着 Internet 技术的迅猛发展,WEB(World Wide WEB) 已发展成为拥有 3 亿页面的分布式信息空间,而且这个数字仍以每 4 至 6 个月翻一番的速度增 加着。面对这海量的数据和信息,人们却感知识的匮乏,难怪 John Naisbett 感叹道:“We are drowning in information, but starving for knowledge”(“信息爆炸但知识匮乏”)。 现代社会的竞争趋势要求必须对 WEB 大量复杂的信息进行实时的和深层次的分析,从中找 出真正有价值的信息知识,用于科学研究、决策支持、过程控制、趋势预测、偏差预防等,但 是,现有的 KDD 方法和技术已不能满足人们从 WEB 获取知识的需要,这是因为: ◆WEB 数据是异质、异构、动态、模糊的半结构化、非结构化或数据库信息; ◆异质、异构以及动态性给数据仓储带来极大困难; ◆语义理解难度加大,造成基于内容的信息检索难以实现; ◆挖掘算法、信息模型的动态性以及大样本空间搜索能力要求很高; ◆现有的 KDD 方法和 MD 技术不能直接运用于 WEB 挖掘。 因此,人们迫切感到需要一种新的技术———基于 WEB 的数据挖掘技术,以便从 WEB 海量 的数据中自动地,智能地抽取隐藏于这些数据中的知识。 国内外研究现状综述 KDDM 是近年来一个十分活跃的研究领域。从数据库中发现知识(Knowledge Discovery in database,简称 KDD)一词首先出现在 1989 年举行的第十一届国际联合人工智能学术会议上。 2
基于数据挖掘技术的 WWW 推荐系统设计 到目前为止,由美国人工智能协会主办的 KDD 国际研讨会已召开了 8 次,规模由原来的专题讨 论会发展到国际学术大会,仅以 1999 年为例,就有近 20 个国际会议列有 KDDM 专题。 这两年国内也有相当多的数据挖掘和知识发现方面的研究成果,许多学术会议上都设有专 题进行学术交流。目前, KDDM 的研究重点逐渐从发现方法的研究转向实际的系统应用,国际 上有影响的典型数据挖掘系统有 SAS 公司的 Enterprise Miner, IBM 公司的 Intelligent Miner, SGI 公司的 Set Miner 等。 现有的数据挖掘技术分为 5 类,即预测模型化、聚类、数据归纳、依赖模型化以及发现变 化和偏差。从国内外目前的研究进展来看,各学科的研究自成一派,没有突破各个领域的技术 界限;没有融合各领域的不同方法;尤其是未将并行优化的诸方法集成用于数据库中的数据挖 掘,从而提高实时性,并解决随机的、动态的、不完全的及混沌数据的数据挖掘,即所谓智能 数据挖掘。而且以往多数技术都是在驻留于内存的数据之上进行挖掘,没有把这些技术与数据 库技术相集成。 近年来,有些技术已开始定位于大型数据库上的挖掘,即基于磁盘存贮进行挖掘。从而出 现了关系数据库的数据挖掘、面向对象数据库的数据挖掘等。由于 Internet 和 WEB 的广泛应 用,出现了基于异构数据源的数据挖掘,如文档数据挖掘、时间序列数据挖掘、电子商务系统 中的数据挖掘。伴随数据库技术的发展,多媒体数据库的数据挖掘、时态数据库的数据挖掘、 空间数据库的数据挖掘等也引起了许多人的关注。 当前,DMKD 研究正方兴未艾,预计在 21 世纪还会形成更大的高潮,研究焦点可能会集中到 以下几个方面:研究专门用于知识发现的数据挖掘语言,也许会像 SQL 语言一样走向形式化和 标准化;寻求数据挖掘过程中的可视化方法,使得知识发现的过程能够被用户理解 ,也便于在 知识发现过程中的人机交互;研究在网络环境下的数据挖掘技术,特别是在 Internet 上建立 DMKD 服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化数据的挖掘,如文本数 据、图形图像数据、多媒体数据。但是,无论怎样,需求牵引,市场驱动是永恒的,DMKD 将首先 满足信息时代用户的急需,大量基于 DMKD 的决策支持软件工具产品将会问世 。 2、学术构想与思路、主要实现内容及拟解决的关键技术 学术构想与思路 研究内容主要包括:WEB 上数据挖掘的用途、WEB 上数据挖掘的分类、WEB 上数据挖掘的实 现与工具、WEB 数据挖掘的 BN 实现方法。最后给出了一个 WEB 数据挖掘在电子商务网站中的 应用实例。毕业设计充分的将理论研究和实际应用结合起来,做到了理论和实践的相结合。 该电子商务网站是基于 Jsp/JavaBean 的模式的一个网络购物系统,这种模式以其稳定性 和优越的速度,被全球企业证明公认为可以高效稳定的进行企业运算开发的平台。这种平台最 大的优势在于可以跨系统,真正的“一次编写、 到处运行”的特点,在这种平台上开发的产 3
基于数据挖掘技术的 WWW 推荐系统设计 品,可以轻松移植到其他的平台,例如:Unix、Linux、Windows 系统,这样,在企业更换平 台的时候可以最大的节约成本,提高运算质量。 Jsp 网络购物系统基于 jsp+javabean+数据库 三层结构的动态购物网站。网站用户接口(即界面)由 jsp 完成,数据和逻辑处理由 beans 完成,数据储存由数据库完成。因为 beans 独立负责处理整个网站的全部数据逻辑运算,所以 整个网站的负载量和速度都将大大提高,所以基于这种语言和结构开发的购物系统的优势是其 它语言无法比拟的。这就更进一步保证了网站的稳定性和安全性,而这些,对于一个购物网站 来说是非常重要的! 主要实现内容 主要功能介绍: (1)网站前台功能: 产品列表:详细介绍(名称,图片,市场价,会员价,是否推荐,功能介绍)等 产品搜索:关键字模糊搜索 定购产品:选择商品--确认定购--填写收货人信息--选择付款方式--订单号自动生成 (限登录用户) 用户管理:修改资料 查看购物车(限登录用户) 数据挖掘:通过对用户浏览商品的情况进行分析进而向用户推荐商品 (2)网站后台功能: 商品管理:添加 删除 修改 图片上传 用户管理:查看修改用户资料,删除用户 拟解决的关键技术 WEB 挖掘是数据挖掘在 WEB 上的应用,它利用数据挖掘技术从与 WEB 相关的资源和行为中 抽取感兴趣的、有用的模式和隐含信息,涉及 WEB 技术、数据挖掘、计算机语言学、信息学等 多个领域,是一项综合技术。 WEB 内容挖掘。WEB 内容挖掘是指对 WEB 页面内容及后台交易数据库进行挖掘,从 WEB 文档 内容及其描述中的内容信息中获取有用知识的过程。 同时还可以对 WEB 的组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。 由于文档之间的互连,WEB 能够提供除文档内容之外的有用信息。利用这些信息,可以对页面 进行排序,发现重要的页面。 WEB 使用记录挖掘。WEB 使用记录挖掘是通过挖掘相应站点的日志文件和相关数据来发现该 站点上的浏览者的行为模式,获取有价值的信息的过程。 如何实现WEB 挖掘 4
基于数据挖掘技术的 WWW 推荐系统设计 WEB 挖掘发展自数据挖掘。数据挖掘方法通常可以分为两类:一类是建立在统计模型的 基础上,采用的技术有决策树、分类、聚类、关联规则等;另一类是建立一种以机器学习为主 的人工智能模型,采用的方法有神经网络、自然法则计算方法等。 WEB 内容挖掘实现技术 WEB 上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比 较类似。利用 WEB 文档中部分标记,如 Title、Head 等包含的额外信息,可以提高 WEB 文本挖 掘的性能。 a) 文本总结。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘 要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要 浏览全文就可以了解文档或文档集合的总体内容。 b) 文本分类。分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型, 即通常所说的分类器。 c) 文本聚类。文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次凝 聚法和平面划分法两种类型。 d) 关联规则。发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备; 给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视 化显示、理解、评估关联规则。 WEB 使用记录挖掘实现技术 在挖掘 WEB 用户使用记录时描述用户访问的数据包括:IP 地址、参考页面、访问日期 和时间、用户 WEB 站点及配置信息。 发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两 种方式:一是先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术来访问日 志数据;二是直接访问日志数据以获取用户的导航信息。另一种方法是通过对用户点击事件的 搜集和分析发现用户导航行为。 能挖到什么 获取竞争对手和客户信息。WEB 不仅由页面组成,而且还包含了从一个页面指向另一 个页面的超链接。一个 WEB 页面的作者建立指向另一个页面的指针,就可以看作是作者对另一 页面的认可。把另一页面的来自不同作者的注解收集起来,就可以用来反映该页面的重要性, 并可以很自然地用于权威页面的发现。另外一种重要的 WEB 页面是一个或多个 WEB 页面,它提 供了指向权威页面的链接集合,称为 Hub。Hub 页面本身可能并不突出,或者说可能没有几个 链接指向它们,但是 Hub 页面却提供了指向就某个话题而言最为突出的站点的链接。通过分 析这类信息,企业可以获得零售商、中间商、合作商以及竞争对手的信息。 5
基于数据挖掘技术的 WWW 推荐系统设计 发现用户访问模式。通过分析和探究 WEB 日志记录中的规律,可以识别电子商务的潜 在客户,提高对最终用户的服务质量,并改进 WEB 服务器系统的性能。 WEB 日志记录数据库 提供了有关 WEB 动态的,基于 URL、时间、IP 地址和 WEB 页面内容的丰富信息,对它们进行分 析,有助于发现潜在客户、用户和市场,有助于聚类用户并将用户分门别类,以实现个性化的 市场服务。 3、所需实验手段、研究条件和实验条件 硬件环境要求: 计算机必须满足的条件: [1] CPU: Intel Pentium 1GHz 或更高的处理器(推荐酷睿 2 或更高的处理器),或任何 运行于 Microsoft Windows NT Workstation 的 Alpha 的处理器。 [2] 操作系统: Microsoft Windows XP/vista/7 或 Microsoft Windows NT Service/Workstation 4.0(推荐 Service Pack 5)或更高版本,或者 Unix,Linux 操作 系统。 [3] 监视器: Microsoft Windows 支持的 VGA 或分辨率更高的监视器。 [4] 内存:512MB 内存以上。 软件环境要求: 本系统适用于 Microsoft Windows XP/vista/7 或者 Unix,Linux 下开发的,所采用的开 发工具是 JSDK1.60 及 Tomcat 6.0。由于考虑到该企业每天的数据处理量,我们后台采用 SqlSever2008 。 浏览器推荐 Microsoft IE8.0 浏览器 推荐桌面显示方式:1280*800 像素 4、计划进度 3 月 1 日—3 月 9 日 完成毕业设计开题报告 3 月 10 日—3 月 25 日 调研,准备各种参考资料、充实所需知识; 3 月 26 日—4 月 5 日 阅读相关书籍资料,提出可行性的设计方案; 4 月 6 日—4 月 25 日 具体设计与制作工作; 4 月 26 日—5 月 25 日 毕业设计论文的撰写,交由指导老师修改; 5 月 25 日以后 论文答辩 6
基于数据挖掘技术的 WWW 推荐系统设计 5、主要参考文献 [1] 陈国青.企业资源计划教程.清华大学出版社,2008 [2] 吴建安.市场营销学(第二版).高等教育出版社, 2004 [3] 刘业政.电子商务概论. 高等教育出版社,2007 [4] (美)齐克芒德 吉尔伯特.客户关系管理. 中国人民大学出版社,2005 [5] 韩佳炜.数据挖掘概念与技术(第二版).机械工业出版社,2007 [6] 贝里.数据挖掘——客户关系管理的科学与艺术.中国财经出版社,2004 [7] 纪希禹.数据挖掘技术应用与实例.机械工业出版社,2009 [8] 王永贵.客户关系管理.清华大学出版社,2007 [9] 武延军 黄飞跃. 精通 JSP 编程技术[M]. 北京:人民邮电出版社,2001.8 [10] 柏亚军. JSP 编程基础及应用实例集锦[M].北京:人民邮电出版社,2001.7 [11] 清宏计算机工作室.JSP 编程技巧[M].北京:机械工业出版社,2000.1 [12] 周影 .网络编程语言 JSP 实例教程[M].北京:电子工业出版社,2003.6 备注 指导老师意见: 学院毕业设计( 论文)工作领导小组意见: 签 名: 年 月 日 签 名: 年 月 日 7
分享到:
收藏