logo资料库

打包Matlab博士论文关于垃圾邮件分类-基于文本分类技术的垃圾邮件识别系统.pdf

第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
资料共3页,全文预览结束
!""!年第 "# 卷第 $ 期 微电子学与计算机 #!’ 12-.)3456789:;<#$ 李国栋 李卫 !西安交通大学电信学院# 陕西 西安 )#&&!(" 摘 要! 文章介绍了一个基于文本分类技术识别垃圾邮件系统的体系结构!并介绍了该系统涉及到的中文信息处 理"文本特征选取"朴素贝叶斯分类器等关键技术# 最后!文章给出了针对部分垃圾邮件的处理结果$ 结果表明!该 方法对于垃圾邮件的识别!具有较好的效果$ 关键词! 垃圾邮件!文本分类!汉语切词!朴素贝叶斯 中图法分类号! :,%(%G&(F 文章编号! )"""+,)&"-!""./"$$#!’?&" 文献标识码! * ’ ()*+,-./.+- 012/)3 +4 0563 762)8 +- 9):/ ;<622.4.*6/.+- 9)*=-+<+,1 H+ I.1*91A@J H+ K87 !L;M110 16 C08;/41A7;N 70702/?6*/@ :M7N R? -47@7A?-* 47@7A
#!$ 微电子学与计算机 !""!年第 "# 卷第 $ 期 能是预处理中英文文档! 利用输入的训练邮件集 ! 提取文档的特征值 !生 成 分 类 决 策 知 识 库 !初 始 化 系统" !"# !"#$%& 本模块是本系统的另一核心!它主要由两大块 组成" 第一!文本分类的分类器!本系统使用朴素贝 叶斯分类器#%&’()* +&,*-$% 第二!决策系统" 根据文 本 分 类 器 得 出 的 结 果 !结 合 发 信 人 &收 信 人 &’.&/*& .*/*()* 0(*12&345.(6(%&’(%6478 等域决策判断该邮件 是否是垃圾邮件" !"$ ’()*%& 本模块的功能是在决策系统给出答案后!将结 果反馈给训练模块 !重 新 更 新 系 统 的 知 识 库 !使 系 统具有动态的自学习能力" # +,-. #"% /+01234567. 9:#:# 动态自学习汉语词库系统 在中 文 信 息 处 理 中 !由 于 汉 语 的 特 殊 性 !词 与 词之间没有明显的分割!因此切词’分词$成为中文 信息处理的第一步" 而准确的切词常常需要一个较 为完备的汉语词库!词库的完备性对于切词的准确 率起着十分重要的作用" 同时我们也看到!无论预 先设计多么大的词 典 !在 实 际 应 用 中 !都 会 遇 到 大 量的新词汇&未收录词汇等" 因而如何使系统动态 学习新词汇 &动态 维 护 词 典 !并 在 此 基 础 上 使 整 个 信息处理系统具有自适应性和动态性!就成了一个 关键问题" 为此!本系统实现了一种基于统计分析 的实时自适应的动态自学习汉语词库系统! 如图 " 所示" 长度的汉字串作为匹配字串% " 在词库中查找该匹配字串% # 如果未找到该匹配字串!则去除匹配字段的 最后一个汉字!作为新的匹配字串!并转到步骤"% $ 如果找到该匹配字串! 则切分出一条词!同 时与最近切分的词做比较% % 如果二者是交集型歧义字段!根据作出交集 型歧义字段的标 记 !并 转 到&)如 果 二 者 是 组 合 型 歧义字段!则直接转&)如果二者无歧义关系!则作 出词组的标记!并转到&% & 后移一个字作为下一次分词的起点!跳转到 步骤!% 9:#:9 文本特征提取 文 本 特 征 的 选 取 直 接 关 系 到 分 类 结 果 的 准 确 性!因此如何提取合适的特征值尤为关键% 每一类 文档都是由特有词汇和辅助词汇组成!即( 文章 ; 专有词汇 < 辅助词汇 上式中专有词汇定义为(只在一类或个别几类 中出现的能体现类属性的词汇) 辅助词汇定义为( 几乎在每一类文 章 都 出 现 !起 语 法 &承 接 等 非 实 意 词汇% 因此!本系统在提取文本特征值时只考虑了 专有词汇 !这样 大 大 减 少 了 特 征 值 的 维 数 !减 少 了 计算量% #"! 289": 本 系 统 使 用 朴 素 贝 叶 斯 文 本 分 类 器 ’%&’()* +&,*-$作为文本分类器% 朴素贝叶斯分类器是一种 简单而有效的分类器!在实际使用过程中显示出了 非常好的准确性% 尤为关键的是它的算法简单 !计 算量很小!有利于应用在实时处理系统中% 朴素贝 叶 斯 文 本 分 类 器 ’%&’()* +&,*-$假 定 所 有 属 性 都 条 件独立于分类属性!它的样本 !;="#> "">:::>"# ? /@!其中 "$ ’#A$%&$表示属性!’ 表示分类属性% 朴素贝叶斯分 类器的分类原理如下( 数据样本 ! 有属性空间 (;=)#> )">:::> )&@及类属 性空间 *;=+#> +">:::> +,@% 给定一个已知 ( 空间属性而 类属空间未知的新样本 -!那么 ! 的类属性由最大 后验概率’条件 ! 下$决定% 即朴素贝叶斯分类将未 知样本分配给类 +$!当且仅当 +$ =. D+$ / -E@% 所以!分类问题就转化成求 . D01 / -F最大值的问题% 由贝叶斯定理( 属于 B&C #!$!, . D01 / -F ; . D-/ 01F . D01F / . D-F 一 般 !如 果 类 的 先 验 概 率 无 法 确 定 时 !通 常 可 以假设各个类是等概率的% 即( !;<= %&# >" 9:#:" 逐词扫描最大匹配法切词算法 本系统使用逐词扫描最大匹配法切词算法!其 基本过程大致如下( ! 从输入文本中的起点取出不超过词典最大
!""!年第 "# 卷第 $ 期 微电子学与计算机 #)- 述语言 结 合 起 来 构 建 仿 真 验 证 环 境 方 面 做 了 大 胆 的尝试% 并通过在实际的数字 ZLPA 芯片开发中的 应用印证了此方案的可行性& ’()* 4#5 ZH= QY>=E3 Z??>= LC?V;? \DKC:= :@ F>KC:=3 #))&8 -"!‘-")* 4"5 OCTB>D? _ OTUC==D[* P=KDG<>KC=G ]D=H Abb C=K: LCI;?>KC:=W7>EDH ZLPA \DKC:= Q=YC<:ID=KE* SCGBW FDYD? _DECG= \>?CH>KC:= >=H aDEK c:KC:=>?3 e:Y* ",,#8 #)‘"!* 4-5 _ S;EI>==3 DK >?* Z e:YD? LCI;?>KC:= >=H \DKC:= ZJ# J<:>TB C= >= ZLPA _DECG= ]<:TDEE* e;T?D>< LTCD=TD L[I# J:EC;I A:=@D=CTX 7D? \D# KC:= :@ S_F O:HD?E 4O53 7:EK:=8 U?;RD< ZT>HDICT ];V# ?CEBD<3 ",,,* 4+5 罗琨%赵磊%尹建华* 数字 专 用 集 成 芯 片 前 端 验 证 方 法 研 究%计算机工程与应用%",,"*#’%-’‘-)* 程文青 女3 副教授& 主要研究方向为宽带网络通信技术(数 字集成电路设计与验证技术& 赵 宇 男 3硕士研究生& 主要研究方向为宽带网络通信技 术(数字集成电路设计与验证技术& 夏晓菲 男 3硕士研究生& 主要研究方向为宽带网络通信技 术(数字集成电路设计与验证技术& &&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& !+,- "!" .# 表 # 测试结果 ! ."#/ 0 ! 1""2 0 ! 0 ! 1"#2 据此%只需对 ! 1$% "&2最大化即可& 给定具有许 多属性的 数 据 集3计 算 ’ 1(% "&2的 计 算 量 会 非 常 大 & 为降低 计 算 开 销 % 根 据 类 属 性 条 件 独 立 的 朴 素 假 定%即在属性间不存在依赖关系%所以$ ) 1,* - "&2 ) 1(% "&2!! 1"&2 " ##*$+ 为避免式中 ) 1,* % "&2等于 ,%可以采用拉普拉斯 概率估计$ ) 1"&2 0 . 1"&2 . 3 ) 1,* - "&2 0 #/01 1,* % "&2 2 4 2 2 3 2/ %01 1,* % "&2 !*0# 其中 % 0 表示训练样本总数’ 0 1"&2表示 类 "& 中 的训练样本数’ 2 4 2表示属性空间 5 的维数%即特征 词表中总单词数’ .1 1,* % "&2表示 ,* !即某一特征词" 在类 "& 的所有文档中出现的频次之和& 另外%本系统引入属性评估函数% 6 1,*2表征属性 对 分 类 器 的 影 响 越 的 重 要 程 度 % 6 1,*2越 小 属 性 ,* 小%则可得到最终结果$ ! 1(- "&2!! 1"&2 " #$*$+ !6 1,*2 1 ! 1,* - "&2 2 ! !"#$%#& 本 系 统 的 测 试 数 据 是 来 自 个 人 邮 箱 中 的 $,, 多封邮 件 %其 中 !,, 封 作 为 训 练 集 %其 余 作 为 测 试 集& 在测试中%我们将邮件分成正常(广告(色情(病 毒 (其它无用或有 害 信 息 共 五 大 类 %其 中 后 四 类 最 终被归并为垃圾邮件& 测试结果如表 # 所示& 在测试中% 系统对正常邮件的误报率很低 %而 垃圾邮件的漏报率较高% 这符合系统的设计要求 & 对病毒%色情等分类准确率较低& 原因是这几类邮 类别 正常邮件 广告邮件 色情邮件 病毒邮件 无用邮件 全部邮件 正常 &’() ’*’ #,*+ -’*$ ##*# # 朴素贝叶斯文本分类器分类结果!%" 广告 色情 病毒 无用 正确率 $*$ )"*- #+*& , ##*# # +*$ , ’-*’ , , # , , , $-*! , # , , , , ’’*& # &’*) )"*- ’-*’ $-*! ’’*& &-*, 最终结果 正确率 )&*- )!*" &’*! $&*! ’+*, &’*$ 注 $最终结果指在分类器分类的结果的基础上 %综合其它 邮 件域得出的最终结果& 件本身和广告等类有重叠%有些邮件是同时属于多 类& 本系统利用中英文文本分类技术从内容上识别 垃圾邮件%并取得了较好的效果& 要更好地控制识 别垃圾邮件%还需要分析垃圾邮件在传播过程中的 内容和特点%两者结合将会有更好的效果& ’()* 4#5 中 国 互 联 网 协 会* 中 国 互 联 网 协 会 反 垃 圾 邮 件 规 范 3 ",,-* 4"5 国 家 标 准 67#-’#+* 信 息 处 理 用 现 代 汉 语 分 词 规 范* 北 京8 中国标准出版社3 #))"* 4-5 冯志伟* 确定切词单位 的 某 些 语 法 因 素* 9:;<=>? :@ ABC# =DED F>=G;>GD >=H A:IJ;KD<3 LC=G>J:RDC S>=3 OCTBD?C=D U>IVD<* 数 据 挖 掘 W概 念 与 技 术 * 高等教育出版社3 ",,#*+* 4$5 6 N A::JD< >=H Q SD[DEC>= IDKB:H @:< KBD C=H;TKC:= :@ J<:V>VC?CEKCT =DKR:K>* O>TBC=D FD><=C=G3 #))"3#,* 李国栋 男%!#)’!W"%硕士研究生& 研究方向为计算机网络& 李 卫 男%!#)$’W"%博士%副教授&研究方向为计算机网络&
收藏