爬虫介绍
爬虫:一段自动从互联网上抓取数据的程序
爬虫的架构:
爬虫由5个部分组成:调度器,url管理器,网页下载器,网页解析器,应用程序组成
调度器:相当于一台电脑的CPU,负责调度url管理器,网页下载器,网页解析器,让它们协调工作。
url管理器:负责管理爬去网页的url,标记已经爬取过的和未爬取的url,主要有三种实现方式:内存,数据库,缓存数据库
网页下载器:通过传入的url来下载网页,将网页转换成字符串
网页解析器:将下载的网页中有用的信息提取出来
【爬虫介绍】应用程序:将获取到的数据应用到一个具体的场景中
推荐阅读
- Python爬虫|Python爬虫 --- 1.4 正则表达式(re库)
- Apache多路复用模块(MPMs)介绍
- 爬虫数据处理HTML转义字符
- 第十六天(请介绍一件让你非常自豪的事情,(不能是职业类的),什么原因感到自豪。)
- typeScript入门基础介绍
- 2018-12-05爬虫
- “我不想努力了,能给我介绍个富婆吗(”)
- 今日自我介绍,感恩所遇一切
- 杨梦彤自我介绍
- 第六章|第六章 Sleuth--链路追踪