Python爬虫实战.pptx

发布时间：2022-05-30 发布人：admin 分类：说明书资料大小：2.41M 资料格式：pptx 举报版权申诉

tt123456xy-12014524-16359647385766378526.pptx.pdf-第1页.png

第1页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第2页.png

第2页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第3页.png

第3页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第4页.png

第4页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第5页.png

第5页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第6页.png

第6页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第7页.png

第7页 / 共24页

tt123456xy-12014524-16359647385766378526.pptx.pdf-第8页.png

第8页 / 共24页

文本预览

Python爬虫实战汇报人：信息技术部

目录 Contents Python爬虫简介一个简单的爬虫示例爬虫的相关法律 02

第一章 SECTION Python爬虫简介爬虫介绍数据整合数据爬取的流程自然语言处理系统 03

网络爬虫简介网络爬虫也叫网络蜘蛛，是一种“自动化浏览网络”的程序，或者说是一种网络机器人，它会按照一定的规则，自动的从网络中抓取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网，我们的爬虫就是上面的一个蜘蛛，不断的去抓取我们需要的信息。简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。 26

数据爬取的流程数据下载从互联网下载原始网页数据解析从XML/HTML 等抽取多种类型和结构的数据数据整合前瞻性的设计规划和整合处理，是消除信息孤岛的有力手段，利于高效地发挥数据的价值数据存储将整理和分类的数据进行针对性的存储（关系数据库， Nosql, 分布式文件系统） 28

数据整合我们把香蕉给猴子，因为它们饿了我们把香蕉给猴子，因为它们熟透了这两句话有同样的结构。但是代词 " 它们 " 在第一句中指的是 " 猴子 "；在第二句中指的是 " 香蕉 "。如果不了解猴子和香蕉的属性，无法区分，这就是电脑只能处理 " 字符串 "，而人可以解决 " 意义 "。 17

数据整合-自然语言处理系统 01 中文分词 02 词性分析 03 提取核心词组 04 文本聚类 05 情感分析中文分词与英文单词不同，中文词语没有词与词的边界。分词词典比流行词语更新速度较慢，中文字词组合多变。词性分析中文语法复杂、词性多元、词性活用。日常用语中，存在病句和反语、反义等特殊用法，使得分析更加困难。提取核心词表达意义的词语多样：名词，动词，形容词等；词语组合多样化，动宾短语、偏正结构等；日常用语，用法多变，结构解析复杂。文本聚类利用K-means和Affinity Propagation算法，聚类核心词表达式。由于表达式短，基于名词词语或者基于词组都会出现干扰。情感分析需要根据形容词、副词，以及在整个句子的整体一起，判断每一个表达形式的正负面。

第二章 SECTION 一个简单的爬虫示例爬虫的工具反爬取机制数据存储基础抓取简单的数据提取 03

分享到：

赞收藏

资料库

Python爬虫实战.pptx

相关推荐

开发技术

热门标签

最新资料