0%

【Python】爬虫基本架构

发表于 2018-03-27 分类于 Python

爬虫基本架构

1. 爬虫调度器

2. URL管理器

初始化未爬取、已爬取URL集合
判断是否存在未爬取的URL
获取一个未爬取的URL
将新的URL加入未爬取的集合
获取未爬取的URL集合大小
获取已经爬取的URL集合大小

3. HTML下载器

实现下载网页

4. HTML解析器

抽取URL与数据

5. 数据存储器

保存数据