logo资料库

软件工程毕业设计范文.doc

第1页 / 共57页
第2页 / 共57页
第3页 / 共57页
第4页 / 共57页
第5页 / 共57页
第6页 / 共57页
第7页 / 共57页
第8页 / 共57页
资料共57页,剩余部分请下载后查看
1绪论
1.1论文背景及研究意义
1.2国内外研究现状
1.3论文的主要工作
1.4论文内容安排
2基础技术研究
2.1垃圾邮件过滤技术
2.1.1黑白名单过滤
2.1.2逆向名字解析
2.1.3关键字过滤
2.1.4基于规则的过滤
2.1.5基于概率统计的过滤
2.2电子邮件系统
2.3贝叶斯文本分类技术
2.3.1贝叶斯算法简介
2.3.2贝叶斯算法在垃圾邮件中的应用
2.3.3中文分词技术
3系统需求分析与概要设计
3.1系统需求分析
3.2系统整体框架
3.2.1系统流程图
3.2.2各模块简述
3.3系统开发环境
4系统设计与实现
4.1邮件过滤系统的设计
4.1.1训练模块
4.1.2邮件判定模块
4.1.3数据备份及查看备份模块
4.1.4查看邮件模块
4.2系统运行界面
4.2.1黑白名单设置界面
4.2.2训练界面
4.2.3数据备份页面
4.2.4更换训练集界面
4.2.5运行界面
4.2.6查看垃圾邮件界面
5系统测试
5.1系统的性能评价体系
5.2测试
5.3本章小结
6小结
6.1工作总结
6.2展望
参考文献
致 谢
附录:翻译(原文和译文)
本科生毕业论文(设计) 题 目 基于贝叶斯过滤的垃圾邮件检测系统 的设计与实现 学 院 软件学院 专 业 软件工程 学生姓名 蔡启申 学 号 0543042209 年级 2005 指导教师 李涛 教务处制表 二ΟΟ九年五月三十日
四川大学本科毕业论文 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 软件工程 学生 蔡启申 指导老师 李涛 [摘要] 随着因特网的普及,电子邮件在人们的日常生活中扮演着重要的角色,它以 快捷、方便、低成本的特性吸引了众多用户,也因此成为了互联网上最重要、最普及的沟 通工具之一。然而,随之诞生的垃圾邮件也越来越泛滥,给用户、网络管理员和网络服务 提供商带来了无尽的烦恼,收件人的时间、带宽和存储资源也被无效占用,网络链路因此 造成拥塞,还被作为不良信息的载体到处散发。如何有效地抵御垃圾邮件是全世界共同面 临的一道难题,也是互联网上目前急待解决的问题。常用的反垃圾邮件技术一般包括白名 单与黑名单技术、规则过滤、基于关键词匹配的内容扫描、文本分类技术等,其中文本分 类技术得到了最为广泛的应用。垃圾邮件过滤中常用的文本分类方法有贝叶斯、k-近邻、 决策树、boosting 等,其中贝叶斯分类算法由于其设计实现简单、准确率高得到了更广 泛的应用。本文对大量的垃圾邮件过滤技术和算法进行了研究,总结了它们的优点和不足, 并对电子邮件系统以及邮件服务器进行了研究,在此基础上了设计和实现了一种基于邮件 服务器 James 的垃圾邮件检测系统。通过对贝叶斯算法以及中文分词技术的研究,系统采 用了朴素贝叶斯算法的多项式模型来实现,并整合了黑白名单过滤。经过测试,系统能够 有效识别出垃圾邮件。 [主题词] 垃圾邮件过滤;电子邮件系统;邮件服务器 James;贝叶斯算法 1
四川大学本科毕业论文 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 The Design and Implementation of a Spam Detection System Based on Bayesian Filtering Software Engineering Student: Cai Qi-shen Adviser: Li Tao the most is one of [Abstract] With the popularization and development of the Internet, email palys an important role in people's daily life.It attracts lots of people for its advantage of swift, convenience and low cost.Therefore it important communication tools.However the end-users and network managers are feeling more and more boring because of the the increasing proliferation of spam e-mail.The recipient's time, bandwidth and storage resources have been occupied, network links are flooded and harmful messages are sent at anytime and anywhere.How to effectively resist the spam email is a difficult and urgent problem.Anti-spam measures commonly include black or white list technology,manual rules, keyword based content filtering and text categorization.Such algorithms of text categorization as Naive Bayes, KNN, Decision Tree and Boosting can be applied in spam filtering.Bayesian classification algorithms is most popular used,because of its easy to design and high decision features.In this paper, a large number of spam filtering technology and algorithmes in existence have been studied and a summary of the strongpoint and shortage of them was made.Based on studying email system and mail server, we design and implement a James-based spam filter system.By researching Bayesian algorithm and Chinese word segmentation techniques, we implement the system using Naïve Bayes’ polynomial model, adding the black-white name list filter technique.Through testing, the system can filtrate spam email well. [Key Words] spam email filtering;mail system;email server James;Bayesian arithmetic 2
四川大学本科毕业论文 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 目 录 1 绪论 ........................................................ 1 1.1 论文背景及研究意义 ....................................... 1 1.2 国内外研究现状 ........................................... 1 1.3 论文的主要工作 ........................................... 2 1.4 论文内容安排 ............................................. 2 2 基础技术研究 ................................................ 3 2.1 垃圾邮件过滤技术 ......................................... 3 2.1.1 黑白名单过滤............................................................................................................3 2.1.2 逆向名字解析............................................................................................................3 2.1.3 关键字过滤................................................................................................................3 2.1.4 基于规则的过滤........................................................................................................4 2.1.5 基于概率统计的过滤................................................................................................5 2.2 电子邮件系统 ............................................. 7 2.3 贝叶斯文本分类技术 ....................................... 8 2.3.1 贝叶斯算法简介........................................................................................................8 2.3.2 贝叶斯算法在垃圾邮件中的应用............................................................................9 2.3.3 中文分词技术..........................................................................................................10 3 系统需求分析与概要设计 ..................................... 12 3.1 系统需求分析 ............................................ 12 3.2 系统整体框架 ............................................ 13 3.2.1 系统流程图..............................................................................................................13 3.2.2 各模块简述..............................................................................................................13 3.3 系统开发环境 ............................................ 14 4 系统设计与实现 ............................................. 15 4.1 邮件过滤系统的设计 ...................................... 15 4.1.1 训练模块..................................................................................................................15 4.1.2 邮件判定模块..........................................................................................................18 4.1.3 数据备份及查看备份模块......................................................................................22 4.1.4 查看邮件模块..........................................................................................................23 4.2 系统运行界面 ............................................ 24 4.2.1 黑白名单设置界面..................................................................................................24 4.2.2 训练界面..................................................................................................................25 4.2.3 数据备份页面..........................................................................................................26 1
四川大学本科毕业论文 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 4.2.4 更换训练集界面......................................................................................................26 4.2.5 运行界面..................................................................................................................27 4.2.6 查看垃圾邮件界面..................................................................................................28 5 系统测试 ................................................... 29 5.1 系统的性能评价体系 ...................................... 29 5.2 测试 .................................................... 29 5.3 本章小结 ................................................ 30 6 小结 ....................................................... 31 6.1 工作总结 ................................................ 31 6.2 展望 .................................................... 31 参考文献 ....................................................... 33 声 明 ......................................................... 35 致 谢 ......................................................... 36 附录:翻译(原文和译文) ....................................... 37 2
四川大学本科毕业论文 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 1 绪论 1.1 论文背景及研究意义 随着网络应用的不断发展,电子邮件作为一种方便快捷的通信方式已经被越来越多的 广大网民所接受,然而电子邮件的廉价和操作简便在给人们带来巨大便利的同时,也被一 些别有用心的人所利用,垃圾邮件由此产生并迅速呈泛滥之势。据 2008 年第一次中国反 垃圾邮件调查报告 ]1[ 显示,中国网民平均每周收到垃圾邮件的数量为 17.64 封,中国网民 每周收到垃圾邮件的比例为56.70%;据2008 年第四季度反垃圾邮件状况调查结果 ]2[ 显示, 中国网民平均每周收到垃圾邮件的数量为 17.55 封,网民平均每周收到垃圾邮件的比例为 57.87%;从全球情况看,据 Sophos 最新调查结果显示,美国依然是世界上垃圾邮件最大 发源地,全球 18.9%的垃圾邮件均来自美国,中国列第四位,所占比例为 5.4%。可以看出, 目前我国垃圾邮件泛滥的状况极为严重,这些垃圾邮件对我国的经济和网络环境造成了巨 大的损失。 垃圾邮件的主要内容不仅包含大量的商业广告,还包含色情、反动、暴力、迷信、病 毒等不良信息。这些垃圾邮件的泛滥不仅浪费了宝贵的网络资源,甚至还有可能引发严重 的社会问题。为了营造一个健康、和谐、有序的网络环境,反垃圾邮件技术成为一个新的 研究热点。邮件过滤是反垃圾邮件的一种直接而有效的方法。目前,在各种过滤器中,表 现最好的是基于贝叶斯文本分类的算法的过滤方法。在技术方面,针对于英文邮件的贝叶 斯文本分类技术已经达到了比较理想的效果,但由于中文和英文的差异性,针对于中文的 贝叶斯文本分类算法还处在研究和发展的阶段。 1.2 国内外研究现状 已有多位学者将贝叶斯方法应用于垃圾邮件的判别,Stanford 大学的 Sahami ]3[ 将朴素 贝叶斯方法引入到垃圾邮件过滤进行实验。Saha-mi 除了使用词汇作为特征外,还使用了 词组特征和其他属性特征,实验结果表明,其他属性特征能够较大幅度地提高过滤结果(精 确率在 95%左右)。Androutsopoulos ]4[ 也利用 Naive Bayes 来判别垃圾邮件。他采用了公开 语料 Ling-spam 进行实验,考查了不同文本预处理形式对过滤结果的影响,实验表明,如 果对原始文本除去停用词和进行词汇还原,能得出最佳的实验结果。Schneider ]5[ 、潘文峰 ]6[ 也利用朴素贝叶斯模型来判别垃圾邮件,他们使用了两种不同的概率估计方法:贝努利 分布模型和多项式分布模型。比较发现,前者不仅计算更简便,效果也优于后者。 除了朴素贝叶斯外,不少学者还使用了其他的贝叶斯模型。IBM 的 Mertz ]7[ 不是 采用独立性假设而是考虑使用 N 元语言模型来估计相关的概率。另外,Androutsopou- 1
四川大学本科毕业论文 基于贝叶斯过滤的垃圾邮件检测系统的设计与实现 los ]8[ 使用了一种 Flexible Bayes 模型,虽然该模型仍然采用独立性假设,但是对概率 的估计使用了高斯分布模型。 目前,许多的邮件服务提供商都采用了这种方法来过滤垃圾邮件,例如 Gmail,Hotmail, 但其配置与应用情况属于商业机密。Foxmail 也采用了这种过滤方式,它需要用户手动整 理邮件夹来进行学习,并设定了低、中、高三种过滤强度。 1.3 论文的主要工作 本文实现了贝叶斯算法的多项式模型,结合黑白名单过滤方法实现了一个邮件服务器 端的垃圾邮件检测系统,并进行了测试。本论文所做的主要工作有: 1) 研究了大量的垃圾邮件过滤算法,总结了他们各自的优点和不足; 2) 对电子邮件过滤系统进行了研究,分析了过滤器在系统中不同位置所起到的效果 3) 研究了邮件服务器 James,阐述了 James 中邮件保存的路径与方式 4) 对贝叶斯分类方法进行了研究,提出了贝叶斯分类方法应用于中文邮件要解决的 问题,并介绍了中文分词的主要算法; 5) 设计并实现了一个基于邮件服务器 James 的垃圾邮件过滤系统,通过测试,证明 具有较强的垃圾邮件过滤能力。 1.4 论文内容安排 论文的内容安排如下: 第一部分:绪论。主要介绍了本论文的研究背景和我国垃圾邮件的现状,并对国内外 的研究状况和本文的主要工作进行了阐述; 第二部分:基础技术研究。主要介绍了主流的垃圾邮件过滤技术,并对论文相关技术 进行了研究,包括电子邮件系统及电子邮件报文格式、贝叶斯文本分类算法以及中文分词 算法。 第三部分:邮件过滤系统需求分析及概要设计。分析了系统需要完成的主要功能并介 绍了整个系统的总体设计,简述了各模块的功能 第四部分:基于贝叶斯的垃圾邮件检测系统。介绍了整个系统的总体设计,给出程序 的流程图,并对系统的各个模块进行了详细的介绍; 第五部分:系统测试。对系统进行测试,并对测试结果进行分析; 第六部分:小结。本文对全文工作进行总结,指出了还需改进的地方,并对未来的垃 圾邮件过滤技术进行了展望。 2
分享到:
收藏