#!$
微电子学与计算机
!""!年第 "# 卷第 $ 期
能是预处理中英文文档! 利用输入的训练邮件集 !
提取文档的特征值 !生 成 分 类 决 策 知 识 库 !初 始 化
系统"
!"# !"#$%&
本模块是本系统的另一核心!它主要由两大块
组成" 第一!文本分类的分类器!本系统使用朴素贝
叶斯分类器#%&’()* +&,*-$% 第二!决策系统" 根据文
本 分 类 器 得 出 的 结 果 !结 合 发 信 人 &收 信 人 &’.&/*&
.*/*()* 0(*12&345.(6(%&’(%6478 等域决策判断该邮件
是否是垃圾邮件"
!"$ ’()*%&
本模块的功能是在决策系统给出答案后!将结
果反馈给训练模块 !重 新 更 新 系 统 的 知 识 库 !使 系
统具有动态的自学习能力"
# +,-.
#"% /+01234567.
9:#:# 动态自学习汉语词库系统
在中 文 信 息 处 理 中 !由 于 汉 语 的 特 殊 性 !词 与
词之间没有明显的分割!因此切词’分词$成为中文
信息处理的第一步" 而准确的切词常常需要一个较
为完备的汉语词库!词库的完备性对于切词的准确
率起着十分重要的作用" 同时我们也看到!无论预
先设计多么大的词 典 !在 实 际 应 用 中 !都 会 遇 到 大
量的新词汇&未收录词汇等" 因而如何使系统动态
学习新词汇 &动态 维 护 词 典 !并 在 此 基 础 上 使 整 个
信息处理系统具有自适应性和动态性!就成了一个
关键问题" 为此!本系统实现了一种基于统计分析
的实时自适应的动态自学习汉语词库系统! 如图 "
所示"
长度的汉字串作为匹配字串%
" 在词库中查找该匹配字串%
# 如果未找到该匹配字串!则去除匹配字段的
最后一个汉字!作为新的匹配字串!并转到步骤"%
$ 如果找到该匹配字串! 则切分出一条词!同
时与最近切分的词做比较%
% 如果二者是交集型歧义字段!根据作出交集
型歧义字段的标 记 !并 转 到&)如 果 二 者 是 组 合 型
歧义字段!则直接转&)如果二者无歧义关系!则作
出词组的标记!并转到&%
& 后移一个字作为下一次分词的起点!跳转到
步骤!%
9:#:9 文本特征提取
文 本 特 征 的 选 取 直 接 关 系 到 分 类 结 果 的 准 确
性!因此如何提取合适的特征值尤为关键% 每一类
文档都是由特有词汇和辅助词汇组成!即(
文章 ; 专有词汇 < 辅助词汇
上式中专有词汇定义为(只在一类或个别几类
中出现的能体现类属性的词汇) 辅助词汇定义为(
几乎在每一类文 章 都 出 现 !起 语 法 &承 接 等 非 实 意
词汇% 因此!本系统在提取文本特征值时只考虑了
专有词汇 !这样 大 大 减 少 了 特 征 值 的 维 数 !减 少 了
计算量%
#"! 289":
本 系 统 使 用 朴 素 贝 叶 斯 文 本 分 类 器 ’%&’()*
+&,*-$作为文本分类器% 朴素贝叶斯分类器是一种
简单而有效的分类器!在实际使用过程中显示出了
非常好的准确性% 尤为关键的是它的算法简单 !计
算量很小!有利于应用在实时处理系统中% 朴素贝
叶 斯 文 本 分 类 器 ’%&’()* +&,*-$假 定 所 有 属 性 都 条
件独立于分类属性!它的样本 !;="#> "">:::>"# ? /@!其中
"$ ’#A$%&$表示属性!’ 表示分类属性% 朴素贝叶斯分
类器的分类原理如下(
数据样本 ! 有属性空间 (;=)#> )">:::> )&@及类属
性空间 *;=+#> +">:::> +,@% 给定一个已知 ( 空间属性而
类属空间未知的新样本 -!那么 ! 的类属性由最大
后验概率’条件 ! 下$决定% 即朴素贝叶斯分类将未
知样本分配给类 +$!当且仅当 +$
=. D+$ / -E@%
所以!分类问题就转化成求 . D01 / -F最大值的问题%
由贝叶斯定理(
属于 B&C
#!$!,
. D01 / -F ; . D-/ 01F . D01F / . D-F
一 般 !如 果 类 的 先 验 概 率 无 法 确 定 时 !通 常 可
以假设各个类是等概率的% 即(
!;<= % >"
9:#:" 逐词扫描最大匹配法切词算法
本系统使用逐词扫描最大匹配法切词算法!其
基本过程大致如下(
! 从输入文本中的起点取出不超过词典最大
!""!年第 "# 卷第 $ 期
微电子学与计算机
#)-
述语言 结 合 起 来 构 建 仿 真 验 证 环 境 方 面 做 了 大 胆
的尝试% 并通过在实际的数字 ZLPA 芯片开发中的
应用印证了此方案的可行性&
’()*
4#5 ZH= QY>=E3 Z??>= LC?V;? \DKC:= :@
F>KC:=3 #))&8 -"!‘-")*
4"5 OCTB>D? _ OTUC==D[*
P=KDG<>KC=G ]D3 aT? >=H Abb C=K:
LCI;?>KC:=W7>EDH ZLPA \DKC:= Q=YC<:ID=KE* SCGBW
FDYD? _DECG= \>?CH>KC:= >=H aDEK c:KC:=>?3 e:Y* ",,#8 #)‘"!*
4-5 _ S;EI>==3 DK >?* Z e:YD? LCI;?>KC:= >=H \DKC:= ZJ#
J<:>TB C= >= ZLPA _DECG= ]<:TDEE* e;T?D>< LTCD=TD L[I#
J:EC;I A:=@D=CTX 7D? \D#
KC:= :@ S_F O:HD?E 4O53 7:EK:=8 U?;RD< ZT>HDICT ];V#
?CEBD<3 ",,,*
4+5 罗琨%赵磊%尹建华* 数字 专 用 集 成 芯 片 前 端 验 证 方 法 研
究%计算机工程与应用%",,"*#’%-’‘-)*
程文青 女3 副教授& 主要研究方向为宽带网络通信技术(数
字集成电路设计与验证技术&
赵 宇 男 3硕士研究生& 主要研究方向为宽带网络通信技
术(数字集成电路设计与验证技术&
夏晓菲 男 3硕士研究生& 主要研究方向为宽带网络通信技
术(数字集成电路设计与验证技术&
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&
!+,- "!" .#
表 # 测试结果
! ."#/ 0 ! 1""2 0 ! 0 ! 1"#2
据此%只需对 ! 1$% "&2最大化即可& 给定具有许
多属性的 数 据 集3计 算 ’ 1(% "&2的 计 算 量 会 非 常 大 &
为降低 计 算 开 销 % 根 据 类 属 性 条 件 独 立 的 朴 素 假
定%即在属性间不存在依赖关系%所以$
) 1,* - "&2
) 1(% "&2!! 1"&2 "
##*$+
为避免式中 ) 1,* % "&2等于 ,%可以采用拉普拉斯
概率估计$
) 1"&2 0
. 1"&2
.
3 ) 1,* - "&2 0
#/01 1,* % "&2
2 4 2
2 3 2/
%01 1,* % "&2
!*0#
其中 % 0 表示训练样本总数’ 0 1"&2表示 类 "&
中
的训练样本数’ 2 4 2表示属性空间 5 的维数%即特征
词表中总单词数’ .1 1,* % "&2表示 ,* !即某一特征词"
在类 "&
的所有文档中出现的频次之和&
另外%本系统引入属性评估函数% 6 1,*2表征属性
对 分 类 器 的 影 响 越
的 重 要 程 度 % 6 1,*2越 小 属 性 ,*
小%则可得到最终结果$
! 1(- "&2!! 1"&2 "
#$*$+
!6 1,*2
1 ! 1,* - "&2
2
! !"#$%#&
本 系 统 的 测 试 数 据 是 来 自 个 人 邮 箱 中 的 $,,
多封邮 件 %其 中 !,, 封 作 为 训 练 集 %其 余 作 为 测 试
集& 在测试中%我们将邮件分成正常(广告(色情(病
毒 (其它无用或有 害 信 息 共 五 大 类 %其 中 后 四 类 最
终被归并为垃圾邮件& 测试结果如表 # 所示&
在测试中% 系统对正常邮件的误报率很低 %而
垃圾邮件的漏报率较高% 这符合系统的设计要求 &
对病毒%色情等分类准确率较低& 原因是这几类邮
类别
正常邮件
广告邮件
色情邮件
病毒邮件
无用邮件
全部邮件
正常
&’()
’*’
#,*+
-’*$
##*#
#
朴素贝叶斯文本分类器分类结果!%"
广告
色情
病毒
无用 正确率
$*$
)"*-
#+*&
,
##*#
#
+*$
,
’-*’
,
,
#
,
,
,
$-*!
,
#
,
,
,
,
’’*&
#
&’*)
)"*-
’-*’
$-*!
’’*&
&-*,
最终结果
正确率
)&*-
)!*"
&’*!
$&*!
’+*,
&’*$
注 $最终结果指在分类器分类的结果的基础上 %综合其它 邮
件域得出的最终结果&
件本身和广告等类有重叠%有些邮件是同时属于多
类& 本系统利用中英文文本分类技术从内容上识别
垃圾邮件%并取得了较好的效果& 要更好地控制识
别垃圾邮件%还需要分析垃圾邮件在传播过程中的
内容和特点%两者结合将会有更好的效果&
’()*
4#5 中 国 互 联 网 协 会* 中 国 互 联 网 协 会 反 垃 圾 邮 件 规 范 3
",,-*
4"5 国 家 标 准 67#-’#+* 信 息 处 理 用 现 代 汉 语 分 词 规 范* 北
京8 中国标准出版社3 #))"*
4-5 冯志伟* 确定切词单位 的 某 些 语 法 因 素* 9:;<=>? :@ ABC#
=DED F>=G;>GD >=H A:IJ;KD<3 LC=G>J:RDC S>=3 OCTBD?C=D U>IVD<* 数 据 挖 掘 W概 念 与 技 术 *
高等教育出版社3 ",,#*+*
4$5 6 N A::JD< >=H Q SD[DEC>= IDKB:H @:< KBD
C=H;TKC:= :@ J<:V>VC?CEKCT =DKR:K>* O>TBC=D
FD><=C=G3 #))"3#,*
李国栋 男%!#)’!W"%硕士研究生& 研究方向为计算机网络&
李 卫 男%!#)$’W"%博士%副教授&研究方向为计算机网络&