一、Gecco
github 地址:https://github.com/xtuhcy/gecco
Gecco 是一款用 java 语言开发的轻量化的易用的网络爬虫。整合了 jsoup、httpclient、fastjson、
spring、htmlunit、redission 等框架,只需要配置一些 jquery 风格的选择器就能很快的写出一
个爬虫。Gecco 框架有优秀的可扩展性,框架基于开闭原则进行设计,对修改关闭、对扩展
开放。
二、WebCollector
github 地址:https://github.com/CrawlScript/WebCollector
WebCollector 是一个无须配置、便于二次开发的 JAVA 爬虫框架(内核),它提供精简的的
API,只需少量代码即可实现一个功能强大的爬虫。WebCollector-Hadoop 是 WebCollector 的
Hadoop 版本,支持分布式爬取。
三、Spiderman
码云地址:https://gitee.com/l-weiwei/Spiderman2
使用案例:https://my.oschina.net/laiweiwei/blog/100866
Spiderman 是一个基于微内核+插件式架构的网络蜘蛛,它的目标是通过简单的方法就能将
复杂的目标网页信息抓取并解析为自己所需要的业务数据。
四、WebMagic
码云地址:https://gitee.com/flashsword20/webmagic
webmagic 的是一个无须配置、便于二次开发的爬虫框架,它提供简单灵活的 API,只需少量
代码即可实现一个爬虫。webmagic 采用完全模块化的设计,功能覆盖整个爬虫的生命周期
(链接提取、页面下载、内容抽取、持久化),支持多线程抓取,分布式抓取,并支持自动重
试、自定义 UA/cookie 等功能。
五、Heritrix
github 地址:https://github.com/internetarchive/heritrix3
Heritrix 是一个开源,可扩展的 web 爬虫项目。用户可以使用它来从网上抓取想要的资源。
Heritrix 设计成严格按照 robots.txt 文件的排除指示和 META robots 标签。其最出色之处在于
它良好的可扩展性,方便用户实现自己的抓取逻辑。
六、crawler4j
github 地址:https://github.com/yasserg/crawler4j
crawler4j 是 Java 实现的开源网络爬虫。提供了简单易用的接口,可以在几分钟内创建一个
多线程网络爬虫。
七、Nutch
github 地址:https://github.com/apache/nutch
Nutch 是一个开源 Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工
具。包括全文搜索和 Web 爬虫。
在 Nutch 的进化过程中,产生了 Hadoop、Tika、Gora 和 Crawler Commons 四个 Java 开源项
目。如今这四个项目都发展迅速,极其火爆,尤其是 Hadoop,其已成为大规模数据处理的
事实上的标准。Tika 使用多种现有的开源内容解析项目来实现从多种格式的文件中提取元数
据和结构化文本,Gora 支持把大数据持久化到多种存储实现,Crawler Commons 是一个通用
的网络爬虫组件。
八、SeimiCrawler V2
github 地址:http://seimi.wanghaomiao.cn/main/2018/08/08/seimicrawlerv2.html
SeimiCrawler 是一个敏捷的,独立部署的,支持分布式的 Java 爬虫框架,希望能在最大程度
上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发
效率。在 SeimiCrawler 的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的
Seimi 帮你搞定。设计思想上 SeimiCrawler 受 Python 的爬虫框架 Scrapy 启发,同时融合了 Java
语言本身特点与 Spring 的特性,并希望在国内更方便且普遍的使用更有效率的 XPath 解析
HTML,所以 SeimiCrawler 默认的 HTML 解析器是 JsoupXpath(独立扩展项目,非 jsoup 自带),
默认解析提取 HTML 数据工作均使用 XPath 来完成(当然,数据处理亦可以自行选择其他解
析器)。并结合 SeimiAgent 彻底完美解决复杂动态页面渲染抓取问题。
九、Jsoup
github 地址:https://github.com/jhy/jsoup/
中文指南:https://www.open-open.com/jsoup/
jsoup 是一款 Java 的 HTML 解析器,可直接解析 URL 地址、HTML 文本内容。它提供了一套
非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
A
alexaTop500,github 链接:https://github.com/hellorocky/alexaTop500
爱丝 APP 图片爬虫,github 链接:https://github.com/x-spiders/aiss-spider
B
Bilibili 用户,github 链接:https://github.com/airingursb/bilibili-user
Bilibili 视频,github 链接:https://github.com/airingursb/bilibili-video
博客园(node.js),github 链接:https://github.com/chokcoco/cnblogSpider
百度百科(node.js),github 链接:https://github.com/nswbmw/micro-scraper
北邮人水木清华招聘,github 链接:https://github.com/Marcus-T/Crawler_Job
百度云网盘,github 链接:https://github.com/gudegg/yunSpider
琉璃神社爬虫,github 链接:https://github.com/Chion82/hello-old-driver
C
cnblog,github 链接:https://github.com/jackgitgz/CnblogsSpider
caoliu 1024,github 链接:https://github.com/LintBin/1024crawer
D
豆瓣读书,github 链接:https://github.com/lanbing510/DouBanSpider
豆瓣爬虫集,github 链接:https://github.com/dontcontactme/doubanspiders
豆瓣害羞组,github 链接:https://github.com/rockdai/haixiu
DNS 记录和子域名,github 链接:https://github.com/TheRook/subbrute
E
E 绅士,github 链接:https://github.com/shuiqukeyou/E-HentaiCrawler
G
Girl-atlas,github 链接:https://github.com/pein0119/girl-atlas-crawler
girl13,github 链接:https://github.com/xuelangcxy/girlCrawler
github trending,github 链接:https://github.com/bonfy/github-trending
Github 仓库及用户分析爬虫,github 链接:
https://github.com/chenjiandongx/Github
I
Instagram,github 链接:https://github.com/xTEddie/Scrapstagram
J
京东,github 链接:https://github.com/taizilongxu/scrapy_jingdong
京东搜索+评论,github 链接:https://github.com/Chyroc/JDong
京东商品+评论,github 链接:https://github.com/samrayleung/jd_spider
机票,github 链接:https://github.com/fankcoder/findtrip
煎蛋妹纸,github 链接:https://github.com/kulovecc/jandan_spider
今日头条,网易,腾讯等新闻,github 链接:https://github.com/lzjqsdd/NewsSpider
K
看知乎,github 链接:https://github.com/atonasting/zhihuspider
课程格子校花榜,github 链接:https://github.com/xinqiu/kechenggezi-Spider
konachan,github 链接:https://github.com/wudaown/konachanDL
L
链家,github 链接:https://github.com/lanbing510/LianJiaSpider
拉勾,github 链接:https://github.com/hk029/LagouSpider
炉石传说,github 链接:https://github.com/youfou/hsdata
leetcode,github 链接:https://github.com/bonfy/leetcode
M
马蜂窝(node.js),github 链接:https://github.com/golmic/mafengwo-spider
MyCar,github 链接:https://github.com/Thoxvi/MyCar_python
漫画喵 一键下载漫画~,github 链接:https://github.com/miaoerduo/cartoon-cat
美女写真套图爬虫,github 链接:https://github.com/chenjiandongx/mmjpg
P
Pixiv,github 链接:https://github.com/littleVege/pixiv_crawl
PornHub,github 链接:https://github.com/xiyouMc/WebHubBot
packtpub,github 链接:https://github.com/niqdev/packtpub-crawler
Q
QQ 空间,github 链接:https://github.com/LiuXingMing/QQSpider
QQ 群,github 链接:https://github.com/caspartse/QQ-Groups-Spider
清华大学网络学堂爬虫,github 链接:https://github.com/kehao95/thu_learn
去哪儿,github 链接:https://github.com/lining0806/QunarSpider
前程无忧 Python 招聘岗位信息爬取分析,github 链接:
https://github.com/chenjiandongx/51job
R
人人影视,github 链接:https://github.com/gnehsoah/yyets-spider
RSS 爬虫,github 链接:https://github.com/shanelau/rssSpider
rosi 妹子图,github 链接:https://github.com/evilcos/crawlers
reddit 壁纸,github 链接:https://github.com/tsarjak/WallpapersFromReddit
reddit,github 链接:https://github.com/dannyvai/reddit_crawlers
S
soundcloud,github 链接:https://github.com/Cortexelus/dadabots
Stackoverflow 100 万问答爬虫,github 链接:
https://github.com/chenjiandongx/stackoverflow
Shadowsocks 账号爬虫,github 链接:
https://github.com/chenjiandongx/soksaccounts
T
tumblr,github 链接:https://github.com/facert/tumblr_spider
TuShare,github 链接:https://github.com/waditu/tushare
天猫双 12 爬虫,github 链接:https://github.com/LiuXingMing/Tmall1212
Taobao mm,github 链接:https://github.com/carlonelong/TaobaoMMCrawler
Tmall 女性文胸尺码爬虫,github 链接:https://github.com/chenjiandongx/cup-size
V
视频信息爬虫,github 链接:https://github.com/billvsme/videoSpider
电影网站,github 链接:https://github.com/chenqing/spider
W
乌云公开漏洞,github 链接:https://github.com/hanc00l/wooyun_public
微信公众号,github 链接:https://github.com/bowenpay/wechat-spider
“代理”方式抓取微信公众号文章,github 链接:
https://github.com/lijinma/wechat_spider
网易新闻,github 链接:https://github.com/armysheng/tech163newsSpider
网易精彩评论,github 链接:https://github.com/dongweiming/commentbox
微博主题搜索分析,github 链接:https://github.com/luzhijun/weiboSA
网易云音乐,github 链接:https://github.com/RitterHou/music-163
X
雪球股票信息(java),github 链接:
https://github.com/decaywood/XueQiuSuperSpider
新浪微博,github 链接:https://github.com/LiuXingMing/SinaSpider
Y
英美剧 TV (node.js),github 链接:https://github.com/pockry/tv-crawler
Z
ZOL 手机壁纸爬虫,github 链接:https://github.com/chenjiandongx/wallpaper
知乎(python),github 链接:https://github.com/LiuRoy/zhihu_spider
知乎(php),github 链接:https://github.com/owner888/phpspider
知网,github 链接:https://github.com/yanzhou/CnkiSpider
知乎妹子,github 链接:https://github.com/yjm12321/zhihu-girl
自如实时房源提醒,github 链接:https://github.com/facert/ziroom_realtime_spider
其他
各种爬虫,github 链接:https://github.com/Nyloner/Nyspider
DHT 爬虫,github 链接:https://github.com/blueskyz/DHTCrawler
SimDHT,github 链接:https://github.com/dontcontactme/simDHT
p2pspider,github 链接:https://github.com/dontcontactme/p2pspider