文本分类综述
n 姓 名:李 艾 林
n 专 业:2011级计算机应用技术
报告内容
l 文本分类的定义
l 文本分类现状和应用
l 文本分类的流程和方法
l文本分类的性能评估
l 参考文献资源
文本分类的定义
文本分类定义
p 文本分类:用电脑对文本集按照一定
的分类体系或标准进行自动分类标记,
与文本分类相近的概念是文本聚类。文
本聚类是指,由机器将相似的文档归在
一起。
文本分类定义
p 文本分类与文本聚类的区别:
文本分类是监督学习,类别是事先规
定好的,文本聚类是无监督学习,由计算
机把类似文本归在一起,事先并不划定好
类别。
文本分类现状和应用
文本分类现状和应用
自动文本分类(简称文本分类)研究始于
50年代末,H.P.Luhn在这一领域进行了开创
性的研究,1961年,Maron发表了有关自动分
类的第一篇论文,随后许多著名的情报学家
如Sperk、Salton等都在这一领域进行了卓有
成效的研究。
文本分类作为机器学习的应用领域,它
的发展过程大致可以划分为三个阶段:
文本分类现状和应用
第一阶段:20世纪80年代前
在这一时期,模式识别和信息检索相继
发展成为一门学科。Maron和Kuhns提出概率
标引模型,并应用于信息检索中:1962年,
Rosenblatt涉及了感知机,通过具有阀值的
神经元处理二分类问题;Gerald Salton提出
了向量空间模型用于对分本进行描述。这一
阶段主要是集中在分类理论的研究,应用方
面则主要适用于信息检索。