人民网爬取新闻生成词云报告.doc

发布时间：2022-06-08 发布人：admin 分类：说明书资料大小：1.05M 资料格式：doc 举报版权申诉

asdfg4569-10628313-4744300845194874509.doc.pdf-第1页.png

第1页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第2页.png

第2页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第3页.png

第3页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第4页.png

第4页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第5页.png

第5页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第6页.png

第6页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第7页.png

第7页 / 共8页

asdfg4569-10628313-4744300845194874509.doc.pdf-第8页.png

第8页 / 共8页

1 需求分析

1.1系统背景介绍

随着互联网技术的发展与应用的普及，网络信息突发式暴增，作为信息的载体的网络，已经成为社会大众参与社会

搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南，通用搜索引擎便具有了很大的局限

1.2功能需求分析

2 总体设计

2.1系统功能结构

2.2系统流程图

2.3开发及运行环境

3 详细设计

4 代码实现

4.1业务模型图

4.2程序运行截图

新闻的数据爬取：

5 测试

6 总结

考查课程报告课程名称： Python 程序设计学院：信息工程与自动化学院专业年级：数科 171 学号： 201710415124 学生姓名：指导教师：吴睿姗王红斌日期： 2018-6-19

期末考查结果评定得分评分项目 ○1 报告条理清晰，内容详实，体会深刻 ○2 报告格式符合规范 ○3 程序符合要求 ○4 界面美观，功能有扩充评语：分值 40 10 40 10 成绩：指导教师签字：评定日期：年月日

目录 1 需求分析.................................................................................................1 1.1 系统背景介绍...............................................................................1 1.2 功能需求分析...............................................................................2 2 总体设计.................................................................................................2 2.1 系统功能结构...............................................................................2 2.2 系统流程图...................................................................................3 2.3 开发及运行环境...........................................................................3 3 详细设计.................................................................................................3 4 代码实现.................................................................................................4 4.1 业务模型图...................................................................................4 4.2 程序运行截图...............................................................................4 5 测试.........................................................................................................5 6 总结.........................................................................................................5 0

1 需求分析 1.1 系统背景介绍随着互联网技术的发展与应用的普及，网络信息突发式暴增，作为信息的载体的网络，已经成为社会大众参与社会生活的一种重要信息渠道。互联网是开放的，已成为思想文化信息的集散地，并具有传统媒体无法相比的优势:便捷性，虚拟性，互动性，多元性。网络蜘蛛即 Web Spider，是一个非常形象的名字。网络爬虫，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本，是搜索引擎的重要组成部分。把互联网比喻成一个蜘蛛网，那么 Spider 程序就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站的某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。搜索引擎作为一个辅助人们检索信息的工具成为用户访问万维网的入口和指南，通用搜索引擎便具有了很大的局限性。由此，定向抓取相关网页资源的爬虫应运而生，并且还出现了很多强大功能的爬虫系统，例如爬取动态视频、天猫物品、爱奇艺等需 VIP 观看的电影、12306 抢票等，本文只是爬取网页中的文本并进行分词、实现词云展示进行程序设计。 1

1.2 功能需求分析（1）网页蜘蛛新闻爬虫的具体功能包括对新闻标题、新闻 ID、新闻来源、新闻内容等信息进行抓取并存入数据库中。而本次课题要求我们对人民网云南板块的新闻文本进行爬取储存。（2）结巴分词分词是文本挖掘的预处理的重要的一步，分词完成后，我们可以继续做一些其他的特征工程。（3）词云展示词云以词语为基本单位，更加直观和艺术的展示文本，wordcloud 库把词云当作一个 WordCloud 对象，-wordcloud.WordCloud()代表一个文本对应的词云，可以根据文本中词语出现的频率等参数绘制词云。本次课题的任务偏重于新闻文本的爬取，选用 requests 发送 http 数据请求，用 BeautifulSoup 对新闻的 html 文件进行数据提取， 2 总体设计 2.1 系统功能结构新闻文本处理系系统爬虫功能（数据采集、写入、存储）利用 jieba 分词对于爬取下来的文本内利用 wordcloud 对于新闻文本进行 2 容进行分词词云展示

选择网页数据请求数据筛选、类型转换 2.2 系统流程图新闻爬取 jieba 分词 Wordcloud 词云展示 2.3 开发及运行环境专为 python 设计的 IDEpycharm 及 requests、jieba、等库函数。 3 详细设计 3

4 代码实现 4.1 业务模型图 4.2 程序运行截图新闻的数据爬取： Jieba 分词： Wordcloud 展示： 4

5 测试 6 总结 5

分享到：

赞收藏

资料库

人民网爬取新闻生成词云报告.doc

相关推荐

课程资源

热门标签

最新资料