logo资料库

浅谈 python 爬虫.pptx

第1页 / 共17页
第2页 / 共17页
第3页 / 共17页
第4页 / 共17页
第5页 / 共17页
第6页 / 共17页
第7页 / 共17页
第8页 / 共17页
资料共17页,剩余部分请下载后查看
浅谈 python 爬虫 作 者 x x x
目 录 为什么需要爬虫 Java 和 Python 爬虫对比 Python 爬虫介绍
1.为什么需要爬虫?
为什么需要爬虫 1)学习爬虫,可以私人订制一个搜索引擎,并且可以对搜索引擎的数据采集工 作原理进行更深层次地理解 2)大数据时代,要进行数据分析,首先要有数据源,而学习爬虫,可以让我们 获取更多的数据源,并且这些数据源可以按我们的目的进行采集,去掉很多无 关数据 3)对于很多SEO从业者来说,学习爬虫,可以更深层次地理解搜索引擎爬虫的 工作原理,从而可以更好地进行搜索引擎优化
2. 爬虫对比
爬虫对比 java java有很多解析器,对网页的解析支持很好。缺点是网络部分 java开源爬虫非常多,著名的如 nutch,国内有webmagic,java优秀的 解析器有htmlparser、jsoup python 网络功能强大,模拟登陆、解析javascript。短处是网页解析 python写起程序来真的很便捷,著名的python爬虫有scrapy等。
3. python爬虫介绍
爬虫框架 • • • • • • • • scrapy - 最出名的网络爬虫,一个快速,高层次的屏幕抓取和web抓取框架,用于抓 取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监 测和自动化测试。官方主页,Scrapy 轻松定制网络爬虫 - 教程,Scrapy 中文指南 。 BeautifulSoup - 不完全是一套爬虫工具,需要配合urllib 使用,而是一套 HTML/XML数据分析,清洗和获取工具。 python-goose - Python-Goose用Python重写,依赖了Beautiful Soup。给定一个文 章的URL, 获取文章的标题和内容很方便。Python-goose的目标是给定任意资讯文章 或者任意文章类的网页,不仅提取出文章的主体,同时提取出所有元信息以及图片 等信息,支持中文网页。 newspaper - 是用于进行新闻提取、文章提取和内容爬取的开源框架。 Portia - 是一个让你可视化爬取网站的工具,不需要任何编程知识,你可以通过注 释所需网页来提取数据。 grab - 是一个网页爬虫抓取框架,grab为异步处理数据提供了多种有效的方法 demiurge - 是一个基于PyQuery的爬虫微框架,支持Python 2.x and 3.x PySpider - 一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python 语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务 监视器,项目管理器以及结果查看器。
分享到:
收藏