爬虫介绍

爬虫:一段自动从互联网上抓取数据的程序
爬虫的架构:
爬虫由5个部分组成:调度器,url管理器,网页下载器,网页解析器,应用程序组成
调度器:相当于一台电脑的CPU,负责调度url管理器,网页下载器,网页解析器,让它们协调工作。
url管理器:负责管理爬去网页的url,标记已经爬取过的和未爬取的url,主要有三种实现方式:内存,数据库,缓存数据库
网页下载器:通过传入的url来下载网页,将网页转换成字符串
网页解析器:将下载的网页中有用的信息提取出来
【爬虫介绍】应用程序:将获取到的数据应用到一个具体的场景中

    推荐阅读