logo资料库

大数据分析三级报告.docx

第1页 / 共22页
第2页 / 共22页
第3页 / 共22页
第4页 / 共22页
第5页 / 共22页
第6页 / 共22页
第7页 / 共22页
第8页 / 共22页
资料共22页,剩余部分请下载后查看
摘要
目 录
1 前言
1.1 研究背景
1.2 研究目的及意义
1.3 相关领域研究现状
1.4 报告意图
1.5 预期结果
1.6 小组分工
2 研究报告正文
2.1项目功能介绍
2.2 基本实现的原理与方法
2.2.1 数据预处理
2.2.2 中文分词
2.2.3 特征提取及词向量化
2.2.4 数据标准化
2.2.5 数据集划分
2.2.6 模型训练
2.2.7 模型评估
2.3 所用到的技术
2.4运行结果展示
2.4.1 关键词提取结果
2.4.2 预测结果
2.4.3 模型的评价指标
2.5 项目评估及分析
2.5.1正则参数RegParam对项目评估指标的影响
2.5.2数据是否标准化时对评估指标的影响
2.5.3对模型进一步改进
2.6 源代码
结论
参考文献
基于逻辑回归的新闻分类 组号 组长 组员 组员 组员 组员 指导教师 日期
摘要 随着网络时代的带来,人们获得的新闻信息也不断增长。面对浩瀚如 海的新闻信息,依靠从传统的人工分类方法已无法满足实际的需求,因此 我们需要借助一些技术手段来解决新闻分类的问题。 本文通过基本原理和方法、相关技术、方案设计、运行结果展示、项 目评估及分析、源代码几方面展示了基于 Spark 平台进行新闻分类的方法。 文章中采用 ansj、Spark MLlib CountVectorizer、Spark MLlib word2vec、Spark randomSplit、等方法实现新闻的分类处理,对如何理解和使用这些算法、 工具来实现大数据的处理具有很好的帮助。 关键词 Spark 应用;逻辑回归算法;新闻分类; I
目 录 摘要 ........................................................................................................................I 目 录 ......................................................................................................................I 1 前言 ................................................................................................................... 1 1.1 研究背景 ...................................................................................................1 1.2 研究目的及意义 .......................................................................................1 1.3 相关领域研究现状 ...................................................................................1 1.4 报告意图 ...................................................................................................2 1.5 预期结果 ...................................................................................................2 1.6 小组分工 ...................................................................................................3 2 研究报告正文 .................................................................................................4 2.1 项目功能介绍 ............................................................................................4 2.2 基本实现的原理与方法 .......................................................................... 4 2.2.1 数据预处理 .........................................................................................4 2.2.2 中文分词 .............................................................................................4 2.2.3 特征提取及词向量化 ........................................................................ 5 2.2.4 数据标准化 .........................................................................................5 2.2.5 数据集划分 .........................................................................................6 2.2.6 模型训练 .............................................................................................6 2.2.7 模型评估 .............................................................................................7 2.3 所用到的技术 ...........................................................................................7 2.4 运行结果展示 ............................................................................................8 2.4.1 关键词提取结果 .................................................................................8 2.4.2 预测结果 .............................................................................................8 2.4.3 模型的评价指标 .................................................................................9 2.5 项目评估及分析 .......................................................................................9 2.5.1 正则参数 RegParam 对项目评估指标的影响 ..................................9 2.5.2 数据是否标准化时对评估指标的影响 ...........................................10 2.5.3 对模型进一步改进 ........................................................................... 10 2.6 源代码 ..................................................................................................... 11 结论 ..................................................................................................................... 15 参考文献 .............................................................................................................16 I
1 前言 1.1 研究背景 随着信息技术的不断发展,互联网上各类数据资源迅速的膨胀,面对 这些海量信息,人们已经很难单纯的依靠人工去组织管理这些信息,需要 有辅助工具来过滤和组织管理这些信息资源,因此基于内容的信息检索和 数据挖掘领域越来越受人们的关注。文本分类方法是根据文本的内容把待 分类文本分划分到预先定义的类别中的方法。最初人们是通过专家手工进 行分类,这必须有较高的领域知识,开销大且效率低,不能满足大规模的 文本处理,采用自动分类方法能较好的解决大规模处理问题,使用户可以 快速的检索到需要的文本类别上。因此,文本自动分类已经是数据挖掘领 域里非常热门的研究课题之一。 1.2 研究目的及意义 目的:通过逻辑回归算法和相关工具来实现文本的自动分类。 意义:文本分类作为信息过滤、信息检索、搜索引擎等领域的技术基 础,具有广泛的应用前景。本次研究可以令我们对文本分类有更深入的了 解,为我们进一步深入相关领域奠定基础。 1.3 相关领域研究现状 早在上世纪六十年代,国外就开始对文本分类进行研究,H.P.LUhn 率 先在这个领域进行研究,提出了一种基于词频统计的文本分类方法。随后 Maron 等人也开始研究这个领域,并发表了第一篇关于分类算法的论文, 紧接着 K.Spark,G.Salton 以及 K.S.Jones 等人也在这一研究领域中取得 很多成效。目前,国外的文本分类研究已经进入实用性的阶段,在信息资 源组织管理中得到广泛的应用。 相比国外的文本分类方法研究,国内起步较迟,在技术上一个重要的 差别在于文本的预处理阶段,由于中文文本分类时需要一个分词过程,而 1
英文文本只要用空格来区分。其实经过预处理后的中文文本变成样本的数 据矩阵后,其接下的分类过程和英文文本分类的过程基本上是一样的,也 就是说预处理后的分类过程与文本语言相独立的。所以在中文文本研究过 程中,主要是如何来表示文本的特征。国内的文本分类起步比较晚,但现 在的中文分词技术已经逐渐成熟,主要有查词典的方法和基于统计语言模 型方法。 国内在这个领域的研究比国外较晚。从八十年代开始,侯汉清教授开 始对计算机文本分类中的应用做了相应的研究和探讨,由于近年来,很多 计算机系统对文本分类有迫切的需求,使文本分类得到越来越多人的重视, 之后陆续有学者对中文文本分类进行深入研究,并产生各种分类方法和相 应的改进方法,以提高文本分类的准确率,因此促进了文本分类方法在数 据挖掘领域内的快速发展。虽然因为语言上的差异导致无法直接使用国外 的技术成果,但在需求的推动下,中文的文本分类技术也已经得到快速发 展,目前已经开始由技术研究阶段到了实用。 目前,一些比较成熟的文本分类算法已经在实际生活中得到充分的应 用,主要的算法有:支持向量机、神经网络算法、贝叶斯分类算法、K 近 邻分类算法等。文本分类的实际应用使得它成为信息管理领域里一个重要 的研究方向。 1.4 报告意图 通过本次项目,大家能够对大数据分类处理有详细的理解,理顺新闻分 类的解决思路,为将来处理文本分类问题提供参考。本报告也主要展示了 我们小组对于这个问题的解题思路,包括如何进行建模,如何进行数据处 理等。 1.5 预期结果 能够完成对文章的关键词提取并输出,可以通过训练好的模型对给定的 文本数据进行分类,并且得到较高的准确率。 2
分享到:
收藏