0%

【Python】爬虫基本架构

爬虫基本架构

1. 爬虫调度器

2. URL管理器

  • 初始化未爬取、已爬取URL集合
  • 判断是否存在未爬取的URL
  • 获取一个未爬取的URL
  • 将新的URL加入未爬取的集合
  • 获取未爬取的URL集合大小
  • 获取已经爬取的URL集合大小

3. HTML下载器

  • 实现下载网页

4. HTML解析器

  • 抽取URL与数据

5. 数据存储器

  • 保存数据