logo资料库

Python爬虫实战.pptx

第1页 / 共24页
第2页 / 共24页
第3页 / 共24页
第4页 / 共24页
第5页 / 共24页
第6页 / 共24页
第7页 / 共24页
第8页 / 共24页
资料共24页,剩余部分请下载后查看
Python爬虫实战 汇报人:信息技术部
目录 Contents Python爬虫简介 一个简单的爬虫示例 爬虫的相关法律 02
第一章 SECTION Python爬虫简介 爬虫介绍 数据整合 数据爬取的流程 自然语言处理系统 03
网络爬虫简介 网络爬虫也叫网络蜘蛛,是一种“自动化浏览网络”的程序,或 者说是一种网络机器人,它会按照一定的规则,自动的从网络中抓 取信息的程序或者脚本。万维网就像一个巨大的蜘蛛网,我们的爬 虫就是上面的一个蜘蛛,不断的去抓取我们需要的信息。 简单来讲,爬虫就是一个探测机器,它的基本操作就是模拟人的行 为去各个网站溜达,点点按钮,查查数据,或者把看到的信息背回 来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。 26
数据爬取的流程 数据下载 从互联网下载原始 网页 数据解析 从XML/HTML 等 抽取多种类型和结 构的数据 数据整合 前瞻性的设计规划 和整合处理,是消 除信息孤岛的有力 手段,利于高效地 发挥数据的价值 数据存储 将整理和分类的数 据进行针对性的存 储 ( 关 系 数 据 库 , Nosql, 分布式文 件系统) 28
数据整合 我们把香蕉给猴子,因为它们饿了 我们把香蕉给猴子,因为它们熟透了 这两句话有同样的结构。但是代词 " 它们 " 在第一句中指的是 " 猴子 ";在第二句中指的是 " 香蕉 "。 如果不了解猴子和香蕉的属性,无法区分,这就是电脑只能处理 " 字符串 ",而人可以解决 " 意义 "。 17
数据整合-自然语言处理系统 01 中文分词 02 词性分析 03 提取核心词组 04 文本聚类 05 情感分析 中文分词 与英文单词不同,中文词语没有词与词的边界。分词词典比流行词语更 新速度较慢,中文字词组合多变。 词性分析 中文语法复杂、词性多元、词性活用。日常用语中,存在病句和反语、 反义等特殊用法,使得分析更加困难。 提取核心词 表达意义的词语多样:名词,动词,形容词等;词语组合多样化,动宾 短语、偏正结构等;日常用语,用法多变,结构解析复杂。 文本聚类 利用K-means和Affinity Propagation算法,聚类核心词表达式。由于 表达式短,基于名词词语或者基于词组都会出现干扰。 情感分析 需要根据形容词、副词,以及在整个句子的整体一起,判断每一个表达 形式的正负面。
第二章 SECTION 一个简单的爬虫示例 爬虫的工具 反爬取机制 数据存储 基础抓取 简单的数据提取 03
分享到:
收藏