Spider
1.
爬虫原理与数据抓取
1.1.
(了解)通用爬虫和聚焦爬虫
1.2.
(复习)HTTP/HTTPS的请求与响应
1.3.
str和bytes的区别
1.4.
Requests简单使用
1.5.
Requests深入
1.6.
HTTP/HTTPS抓包工具-Fiddler
1.7.
参考阅读:urllib模块的基本使用
1.8.
参考阅读:urllib:GET请求和POST请求
1.9.
参考阅读:urllib:Handler处理器和自定义Opener
1.10.
参考阅读:编码故事
2.
非结构化数据与结构化数据提取
2.1.
正则表达式re模块
2.2.
案例:使用正则表达式的爬虫
2.3.
XPath与lxml类库
2.4.
案例:使用XPath的爬虫
2.5.
JSON模块与JsonPath
2.6.
糗事百科案例
2.7.
多线程爬虫案例
2.8.
参考阅读:BeautifulSoup4 解析器
2.9.
参考阅读:案例:使用bs4的爬虫
3.
动态HTML处理和机器图像识别
3.1.
动态HTML介绍
3.2.
Selenium与PhantomJS
3.3.
案例一:网站模拟登录
3.4.
案例二:动态页面模拟点击
3.5.
机器视觉与Tesseract介绍
3.6.
处理一些格式规范的文字
3.7.
尝试对验证码进行机器识别处理
3.8.
参考阅读:执行JavaScript语句
3.9.
参考阅读:训练Tesseract
4.
Scrapy框架
4.1.
配置安装
4.2.
入门案例
4.3.
Scrapy Shell
4.4.
Item Pipeline
4.5.
Spider
4.6.
CrawlSpider
4.7.
Request/Response
4.8.
Downloader Middlewares
4.9.
Settings
5.
Scrapy实战项目
5.1.
(案例一)手机App抓包爬虫
5.2.
(案例二)阳光热线问政平台爬虫
5.3.
(案例三)新浪网分类资讯爬虫
5.4.
(案例四)Cosplay图片下载器爬虫
5.5.
(案例五)将数据保存在MongoDB中
5.6.
(案例六)三种scrapy模拟登陆策略
5.7.
附:通过Fiddler进行手机抓包方法
6.
scrapy-redis分布式组件
6.1.
源码分析参考:Connection
6.2.
源码分析参考:Dupefilter
6.3.
源码分析参考:Picklecompat
6.4.
源码分析参考:Pipelines
6.5.
源码分析参考:Queue
6.6.
源码分析参考:Scheduler
6.7.
源码分析参考:Spider
7.
scrapy-redis实战
7.1.
源码自带项目说明
7.2.
有缘网分布式爬虫项目1
7.3.
有缘网分布式爬虫项目2
7.4.
处理Redis里的数据
7.5.
尝试改写新浪网分类资讯爬虫1
7.6.
尝试改写新浪网分类资讯爬虫2
7.7.
IT桔子分布式项目1
7.8.
IT桔子分布式项目2
Published with GitBook
可选择的IDE和编辑器