logo资料库

用Python写网络爬虫.pdf

第1页 / 共171页
第2页 / 共171页
第3页 / 共171页
第4页 / 共171页
第5页 / 共171页
第6页 / 共171页
第7页 / 共171页
第8页 / 共171页
资料共171页,剩余部分请下载后查看
目錄
第1章 網絡爬蟲簡介
1.1 網絡爬蟲何時有用
1.2 網絡爬蟲是否合法
1.3 背景調研
1.3.1 檢查 robots.txt
1.3.2 檢查網站地圖
1.3.3 估算網站大小
1.3.4 識別網站所用技術
1.3.5 尋找網站所有者
1.4 編寫第一個網絡爬蟲
1.4.1 下載網頁
1.4.2 網站地圖爬蟲
1.4.3 ID 遍歷爬蟲
1.4.4 鏈接爬蟲
1.5 本章小結
第2章 數據抓取
2.1 分析網頁
2.2 三種網頁抓取方法
2.2.1 正則表達式
2.2.2 Beautiful Soup
2.2.3 Lxml
2.2.4 性能對比
2.2.5 結論
2.2 .6 為鏈接爬蟲添加抓取回調
2.3 本章小結
第3章 下載緩存
3.1 為鏈接爬蟲添加緩存支持
3.2 磁盤緩存
3.2.1 實現
3.2.2 緩存測試
3.2.3 節省磁盤空間
3.2.4 清理過期數據
3.2.5 缺點
3.3 數據庫緩存
3.3.1 NoSQL 是什麼
3.3.2 安裝 MongoDB
3.3.3 MongoDB 概述
3.3.4 MongoDB 緩存實現
3.3.5 壓縮
3.3.6 緩存測試
3.4 本章小結
第4章 並發下載
4.1 100 萬個網頁
4.2 串行爬蟲
4.3 多線程爬蟲
4.3.1 線程和進程如何工作
4.3.2 實現
4.3.3 多進程爬蟲
4.4 性能
4.5 本章小結
第5章 動態內容
5.1 動態網頁示例
5.2 對動態網頁進行逆向工程
5.3 渲染動態網頁
5.3.1 PyQt 還是 PySide
5.3.2 執行 JavaScript
5.3.3 使用 WebKit 與網站交互
5.3.4 Selenium
5.4 本章小結
第6章 表單交互
6.1 登錄表單
6.2 支持內容更新的登錄腳本擴展
6.3 使用 Mechanize 模塊實現自動化表單處理
6.4 本章小結
第7章 驗證碼處理
7.1 註冊賬號
7.2 光學字符識別
7.3 處理複雜驗證碼
7.3.1 使用驗證碼處理服務
7.3.2 9kw 入門
7.3.3 與註冊功能集成
7.4 本章小結
第8章 Scrapy
8.1 安裝
8.2 啟動項目
8.2.1 定義模型
8.2.2 創建爬蟲
8.2.3 使用 shell 命令抓取
8.2.4 檢查結果
8.2.5 中斷與恢復爬蟲
8.3 使用 Portia 編寫可視化爬蟲
8.3.1 安裝
8.3.2 標註
8.3.3 優化爬蟲
8.3.4 檢查結果
8.4 使用 Scrapely 實現自動化抓取
8.5 本章小結
第9章 總結
9.1 Google 搜索引擎
9.2 Facebook
9.2.1 網站
9.2 .2 API
9.3 Gap
9.4 寶馬
9.5 本章小結
分享到:
收藏