Python爬虫实战
汇报人:信息技术部
目录
Contents
Python爬虫简介
一个简单的爬虫示例
爬虫的相关法律
02
第一章
SECTION
Python爬虫简介
爬虫介绍
数据整合
数据爬取的流程
自然语言处理系统
03
网络爬虫简介
网络爬虫也叫网络蜘蛛,是一种“自动化浏览网络”的程序,或
者说是一种网络机器人,它会按照一定的规则,自动的从网络中抓
取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬
虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。
简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行
为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回
来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。
26
数据爬取的流程
数据下载
从互联网下载原始
网页
数据解析
从XML/HTML 等
抽取多种类型和结
构的数据
数据整合
前瞻性的设计规划
和整合处理,是消
除信息孤岛的有力
手段,利于高效地
发挥数据的价值
数据存储
将整理和分类的数
据进行针对性的存
储
( 关 系 数 据 库 ,
Nosql, 分布式文
件系统)
28
数据整合
我们把香蕉给猴子,因为它们饿了
我们把香蕉给猴子,因为它们熟透了
这两句话有同样的结构。但是代词 " 它们 " 在第一句中指的是 "
猴子 ";在第二句中指的是 " 香蕉 "。
如果不了解猴子和香蕉的属性,无法区分,这就是电脑只能处理
" 字符串 ",而人可以解决 " 意义 "。
17
数据整合-自然语言处理系统
01 中文分词
02 词性分析
03 提取核心词组
04 文本聚类
05 情感分析
中文分词
与英文单词不同,中文词语没有词与词的边界。分词词典比流行词语更
新速度较慢,中文字词组合多变。
词性分析
中文语法复杂、词性多元、词性活用。日常用语中,存在病句和反语、
反义等特殊用法,使得分析更加困难。
提取核心词
表达意义的词语多样:名词,动词,形容词等;词语组合多样化,动宾
短语、偏正结构等;日常用语,用法多变,结构解析复杂。
文本聚类
利用K-means和Affinity Propagation算法,聚类核心词表达式。由于
表达式短,基于名词词语或者基于词组都会出现干扰。
情感分析
需要根据形容词、副词,以及在整个句子的整体一起,判断每一个表达
形式的正负面。
第二章
SECTION
一个简单的爬虫示例
爬虫的工具
反爬取机制
数据存储
基础抓取
简单的数据提取
03