基于逻辑回归的新闻分类
组号
组长
组员
组员
组员
组员
指导教师
日期
摘要
随着网络时代的带来,人们获得的新闻信息也不断增长。面对浩瀚如
海的新闻信息,依靠从传统的人工分类方法已无法满足实际的需求,因此
我们需要借助一些技术手段来解决新闻分类的问题。
本文通过基本原理和方法、相关技术、方案设计、运行结果展示、项
目评估及分析、源代码几方面展示了基于 Spark 平台进行新闻分类的方法。
文章中采用 ansj、Spark MLlib CountVectorizer、Spark MLlib word2vec、Spark
randomSplit、等方法实现新闻的分类处理,对如何理解和使用这些算法、
工具来实现大数据的处理具有很好的帮助。
关键词 Spark 应用;逻辑回归算法;新闻分类;
I
目 录
摘要 ........................................................................................................................I
目 录 ......................................................................................................................I
1 前言 ................................................................................................................... 1
1.1 研究背景 ...................................................................................................1
1.2 研究目的及意义 .......................................................................................1
1.3 相关领域研究现状 ...................................................................................1
1.4 报告意图 ...................................................................................................2
1.5 预期结果 ...................................................................................................2
1.6 小组分工 ...................................................................................................3
2 研究报告正文 .................................................................................................4
2.1 项目功能介绍 ............................................................................................4
2.2 基本实现的原理与方法 .......................................................................... 4
2.2.1 数据预处理 .........................................................................................4
2.2.2 中文分词 .............................................................................................4
2.2.3 特征提取及词向量化 ........................................................................ 5
2.2.4 数据标准化 .........................................................................................5
2.2.5 数据集划分 .........................................................................................6
2.2.6 模型训练 .............................................................................................6
2.2.7 模型评估 .............................................................................................7
2.3 所用到的技术 ...........................................................................................7
2.4 运行结果展示 ............................................................................................8
2.4.1 关键词提取结果 .................................................................................8
2.4.2 预测结果 .............................................................................................8
2.4.3 模型的评价指标 .................................................................................9
2.5 项目评估及分析 .......................................................................................9
2.5.1 正则参数 RegParam 对项目评估指标的影响 ..................................9
2.5.2 数据是否标准化时对评估指标的影响 ...........................................10
2.5.3 对模型进一步改进 ........................................................................... 10
2.6 源代码 ..................................................................................................... 11
结论 ..................................................................................................................... 15
参考文献 .............................................................................................................16
I
1 前言
1.1 研究背景
随着信息技术的不断发展,互联网上各类数据资源迅速的膨胀,面对
这些海量信息,人们已经很难单纯的依靠人工去组织管理这些信息,需要
有辅助工具来过滤和组织管理这些信息资源,因此基于内容的信息检索和
数据挖掘领域越来越受人们的关注。文本分类方法是根据文本的内容把待
分类文本分划分到预先定义的类别中的方法。最初人们是通过专家手工进
行分类,这必须有较高的领域知识,开销大且效率低,不能满足大规模的
文本处理,采用自动分类方法能较好的解决大规模处理问题,使用户可以
快速的检索到需要的文本类别上。因此,文本自动分类已经是数据挖掘领
域里非常热门的研究课题之一。
1.2 研究目的及意义
目的:通过逻辑回归算法和相关工具来实现文本的自动分类。
意义:文本分类作为信息过滤、信息检索、搜索引擎等领域的技术基
础,具有广泛的应用前景。本次研究可以令我们对文本分类有更深入的了
解,为我们进一步深入相关领域奠定基础。
1.3 相关领域研究现状
早在上世纪六十年代,国外就开始对文本分类进行研究,H.P.LUhn 率
先在这个领域进行研究,提出了一种基于词频统计的文本分类方法。随后
Maron 等人也开始研究这个领域,并发表了第一篇关于分类算法的论文,
紧接着 K.Spark,G.Salton 以及 K.S.Jones 等人也在这一研究领域中取得
很多成效。目前,国外的文本分类研究已经进入实用性的阶段,在信息资
源组织管理中得到广泛的应用。
相比国外的文本分类方法研究,国内起步较迟,在技术上一个重要的
差别在于文本的预处理阶段,由于中文文本分类时需要一个分词过程,而
1
英文文本只要用空格来区分。其实经过预处理后的中文文本变成样本的数
据矩阵后,其接下的分类过程和英文文本分类的过程基本上是一样的,也
就是说预处理后的分类过程与文本语言相独立的。所以在中文文本研究过
程中,主要是如何来表示文本的特征。国内的文本分类起步比较晚,但现
在的中文分词技术已经逐渐成熟,主要有查词典的方法和基于统计语言模
型方法。
国内在这个领域的研究比国外较晚。从八十年代开始,侯汉清教授开
始对计算机文本分类中的应用做了相应的研究和探讨,由于近年来,很多
计算机系统对文本分类有迫切的需求,使文本分类得到越来越多人的重视,
之后陆续有学者对中文文本分类进行深入研究,并产生各种分类方法和相
应的改进方法,以提高文本分类的准确率,因此促进了文本分类方法在数
据挖掘领域内的快速发展。虽然因为语言上的差异导致无法直接使用国外
的技术成果,但在需求的推动下,中文的文本分类技术也已经得到快速发
展,目前已经开始由技术研究阶段到了实用。
目前,一些比较成熟的文本分类算法已经在实际生活中得到充分的应
用,主要的算法有:支持向量机、神经网络算法、贝叶斯分类算法、K 近
邻分类算法等。文本分类的实际应用使得它成为信息管理领域里一个重要
的研究方向。
1.4 报告意图
通过本次项目,大家能够对大数据分类处理有详细的理解,理顺新闻分
类的解决思路,为将来处理文本分类问题提供参考。本报告也主要展示了
我们小组对于这个问题的解题思路,包括如何进行建模,如何进行数据处
理等。
1.5 预期结果
能够完成对文章的关键词提取并输出,可以通过训练好的模型对给定的
文本数据进行分类,并且得到较高的准确率。
2