logo资料库

81个Python爬虫源代码+九款开源爬虫工具.doc

第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
资料共8页,全文预览结束
一、Gecco github 地址:https://github.com/xtuhcy/gecco Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。整合了 jsoup、httpclient、fastjson、 spring、htmlunit、redission 等框架,只需要配置一些 jquery 风格的选择器就能很快的写出一 个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展 开放。 二、WebCollector github 地址:https://github.com/CrawlScript/WebCollector WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),它提供精简的的 API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的 Hadoop 版本,支持分布式爬取。 三、Spiderman 码云地址:https://gitee.com/l-weiwei/Spiderman2 使用案例:https://my.oschina.net/laiweiwei/blog/100866 Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将 复杂的目标网页信息抓取并解析为自己所需要的业务数据。 四、WebMagic 码云地址:https://gitee.com/flashsword20/webmagic webmagic 的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的 API,只需少量 代码即可实现一个爬虫。webmagic 采用完全模块化的设计,功能覆盖整个爬虫的生命周期 (链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重 试、自定义 UA/cookie 等功能。 五、Heritrix github 地址:https://github.com/internetarchive/heritrix3 Heritrix 是一个开源,可扩展的 web 爬虫项目。用户可以使用它来从网上抓取想要的资源。 Heritrix 设计成严格按照 robots.txt 文件的排除指示和 META robots 标签。其最出色之处在于 它良好的可扩展性,方便用户实现自己的抓取逻辑。 六、crawler4j github 地址:https://github.com/yasserg/crawler4j crawler4j 是 Java 实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个 多线程网络爬虫。 七、Nutch
github 地址:https://github.com/apache/nutch Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工 具。包括全文搜索和 Web 爬虫。 在 Nutch 的进化过程中,产生了 Hadoop、Tika、Gora 和 Crawler Commons 四个 Java 开源项 目。如今这四个项目都发展迅速,极其火爆,尤其是 Hadoop,其已成为大规模数据处理的 事实上的标准。Tika 使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数 据和结构化文本,Gora 支持把大数据持久化到多种存储实现,Crawler Commons 是一个通用 的网络爬虫组件。 八、SeimiCrawler V2 github 地址:http://seimi.wanghaomiao.cn/main/2018/08/08/seimicrawlerv2.html SeimiCrawler 是一个敏捷的,独立部署的,支持分布式的 Java 爬虫框架,希望能在最大程度 上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发 效率。在 SeimiCrawler 的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的 Seimi 帮你搞定。设计思想上 SeimiCrawler 受 Python 的爬虫框架 Scrapy 启发,同时融合了 Java 语言本身特点与 Spring 的特性,并希望在国内更方便且普遍的使用更有效率的 XPath 解析 HTML,所以 SeimiCrawler 默认的 HTML 解析器是 JsoupXpath(独立扩展项目,非 jsoup 自带), 默认解析提取 HTML 数据工作均使用 XPath 来完成(当然,数据处理亦可以自行选择其他解 析器)。并结合 SeimiAgent 彻底完美解决复杂动态页面渲染抓取问题。 九、Jsoup github 地址:https://github.com/jhy/jsoup/ 中文指南:https://www.open-open.com/jsoup/ jsoup 是一款 Java 的 HTML 解析器,可直接解析 URL 地址、HTML 文本内容。它提供了一套 非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。 A alexaTop500,github 链接:https://github.com/hellorocky/alexaTop500 爱丝 APP 图片爬虫,github 链接:https://github.com/x-spiders/aiss-spider B
Bilibili 用户,github 链接:https://github.com/airingursb/bilibili-user Bilibili 视频,github 链接:https://github.com/airingursb/bilibili-video 博客园(node.js),github 链接:https://github.com/chokcoco/cnblogSpider 百度百科(node.js),github 链接:https://github.com/nswbmw/micro-scraper 北邮人水木清华招聘,github 链接:https://github.com/Marcus-T/Crawler_Job 百度云网盘,github 链接:https://github.com/gudegg/yunSpider 琉璃神社爬虫,github 链接:https://github.com/Chion82/hello-old-driver C cnblog,github 链接:https://github.com/jackgitgz/CnblogsSpider caoliu 1024,github 链接:https://github.com/LintBin/1024crawer D 豆瓣读书,github 链接:https://github.com/lanbing510/DouBanSpider 豆瓣爬虫集,github 链接:https://github.com/dontcontactme/doubanspiders 豆瓣害羞组,github 链接:https://github.com/rockdai/haixiu DNS 记录和子域名,github 链接:https://github.com/TheRook/subbrute E E 绅士,github 链接:https://github.com/shuiqukeyou/E-HentaiCrawler G Girl-atlas,github 链接:https://github.com/pein0119/girl-atlas-crawler
girl13,github 链接:https://github.com/xuelangcxy/girlCrawler github trending,github 链接:https://github.com/bonfy/github-trending Github 仓库及用户分析爬虫,github 链接: https://github.com/chenjiandongx/Github I Instagram,github 链接:https://github.com/xTEddie/Scrapstagram J 京东,github 链接:https://github.com/taizilongxu/scrapy_jingdong 京东搜索+评论,github 链接:https://github.com/Chyroc/JDong 京东商品+评论,github 链接:https://github.com/samrayleung/jd_spider 机票,github 链接:https://github.com/fankcoder/findtrip 煎蛋妹纸,github 链接:https://github.com/kulovecc/jandan_spider 今日头条,网易,腾讯等新闻,github 链接:https://github.com/lzjqsdd/NewsSpider K 看知乎,github 链接:https://github.com/atonasting/zhihuspider 课程格子校花榜,github 链接:https://github.com/xinqiu/kechenggezi-Spider konachan,github 链接:https://github.com/wudaown/konachanDL L 链家,github 链接:https://github.com/lanbing510/LianJiaSpider 拉勾,github 链接:https://github.com/hk029/LagouSpider
炉石传说,github 链接:https://github.com/youfou/hsdata leetcode,github 链接:https://github.com/bonfy/leetcode M 马蜂窝(node.js),github 链接:https://github.com/golmic/mafengwo-spider MyCar,github 链接:https://github.com/Thoxvi/MyCar_python 漫画喵 一键下载漫画~,github 链接:https://github.com/miaoerduo/cartoon-cat 美女写真套图爬虫,github 链接:https://github.com/chenjiandongx/mmjpg P Pixiv,github 链接:https://github.com/littleVege/pixiv_crawl PornHub,github 链接:https://github.com/xiyouMc/WebHubBot packtpub,github 链接:https://github.com/niqdev/packtpub-crawler Q QQ 空间,github 链接:https://github.com/LiuXingMing/QQSpider QQ 群,github 链接:https://github.com/caspartse/QQ-Groups-Spider 清华大学网络学堂爬虫,github 链接:https://github.com/kehao95/thu_learn 去哪儿,github 链接:https://github.com/lining0806/QunarSpider 前程无忧 Python 招聘岗位信息爬取分析,github 链接: https://github.com/chenjiandongx/51job R 人人影视,github 链接:https://github.com/gnehsoah/yyets-spider
RSS 爬虫,github 链接:https://github.com/shanelau/rssSpider rosi 妹子图,github 链接:https://github.com/evilcos/crawlers reddit 壁纸,github 链接:https://github.com/tsarjak/WallpapersFromReddit reddit,github 链接:https://github.com/dannyvai/reddit_crawlers S soundcloud,github 链接:https://github.com/Cortexelus/dadabots Stackoverflow 100 万问答爬虫,github 链接: https://github.com/chenjiandongx/stackoverflow Shadowsocks 账号爬虫,github 链接: https://github.com/chenjiandongx/soksaccounts T tumblr,github 链接:https://github.com/facert/tumblr_spider TuShare,github 链接:https://github.com/waditu/tushare 天猫双 12 爬虫,github 链接:https://github.com/LiuXingMing/Tmall1212 Taobao mm,github 链接:https://github.com/carlonelong/TaobaoMMCrawler Tmall 女性文胸尺码爬虫,github 链接:https://github.com/chenjiandongx/cup-size V 视频信息爬虫,github 链接:https://github.com/billvsme/videoSpider 电影网站,github 链接:https://github.com/chenqing/spider W
乌云公开漏洞,github 链接:https://github.com/hanc00l/wooyun_public 微信公众号,github 链接:https://github.com/bowenpay/wechat-spider “代理”方式抓取微信公众号文章,github 链接: https://github.com/lijinma/wechat_spider 网易新闻,github 链接:https://github.com/armysheng/tech163newsSpider 网易精彩评论,github 链接:https://github.com/dongweiming/commentbox 微博主题搜索分析,github 链接:https://github.com/luzhijun/weiboSA 网易云音乐,github 链接:https://github.com/RitterHou/music-163 X 雪球股票信息(java),github 链接: https://github.com/decaywood/XueQiuSuperSpider 新浪微博,github 链接:https://github.com/LiuXingMing/SinaSpider Y 英美剧 TV (node.js),github 链接:https://github.com/pockry/tv-crawler Z ZOL 手机壁纸爬虫,github 链接:https://github.com/chenjiandongx/wallpaper 知乎(python),github 链接:https://github.com/LiuRoy/zhihu_spider 知乎(php),github 链接:https://github.com/owner888/phpspider 知网,github 链接:https://github.com/yanzhou/CnkiSpider 知乎妹子,github 链接:https://github.com/yjm12321/zhihu-girl
自如实时房源提醒,github 链接:https://github.com/facert/ziroom_realtime_spider 其他 各种爬虫,github 链接:https://github.com/Nyloner/Nyspider DHT 爬虫,github 链接:https://github.com/blueskyz/DHTCrawler SimDHT,github 链接:https://github.com/dontcontactme/simDHT p2pspider,github 链接:https://github.com/dontcontactme/p2pspider
分享到:
收藏