【Python】爬虫基本架构 发表于 2018-03-27 分类于 Python 爬虫基本架构1. 爬虫调度器2. URL管理器 初始化未爬取、已爬取URL集合 判断是否存在未爬取的URL 获取一个未爬取的URL 将新的URL加入未爬取的集合 获取未爬取的URL集合大小 获取已经爬取的URL集合大小 3. HTML下载器 实现下载网页 4. HTML解析器 抽取URL与数据 5. 数据存储器 保存数据