网页爬虫|CURL的使用

* 安装

Windows环境安装

  1. 首先下载curl的安装包 官网:https://curl.haxx.se/download... 然后找到对应的系统版本
网页爬虫|CURL的使用
文章图片

  1. 配置环境变量
    新建系统变量:
    CURL_HOMED:curlcurl-7.71.1-win64-mingw (解压路径)
    然后在PATH变量后面追加; %CURL_HOME%bin
    网页爬虫|CURL的使用
    文章图片
3.检测是否安装成功
CMD(Windows+R打开cmd命令行)输入指令:curl --help ![image](/img/bVbKZsE)

4.检测是否乱码
CMD(Windows+R打开cmd命令行)输入指令:
curl www.baidu.com
网页爬虫|CURL的使用
文章图片

常用命令
  1. 下载单个文件(基本用法)
curl http://www.centos.org
  1. 通过-o/-O选项保存下载的文件到指定的文件中:
-o:将文件保存为命令行中指定的文件名的文件中
-O:使用URL中默认的文件名保存文件到本地
网页爬虫|CURL的使用
文章图片

3.同时获取多个文件
网页爬虫|CURL的使用
文章图片

4.对CURL使用网络限速
通过--limit-rate选项对CURL的最大网络使用进行限制 ![image](/img/bVbKZtd) 下载指定时间内修改过的文件当下载一个文件时,可对该文件的最后修改日期进行判断,如果该文件在指定日期内修改过,就进行下载,否则不下载。 该功能可通过使用-z选项来实现:

网页爬虫|CURL的使用
文章图片

5.CURL授权
在访问需要授权的页面时,可通过-u选项提供用户名和密码进行授权 ![image](/img/bVbKZtz)

6.从FTP服务器下载文件
![image](/img/bVbKZtC)

7.从FTP服务器上传文件
![image](/img/bVbKZtD)

8.使用代理
curl -x 192.168.100.100:1080 http://www.baidu.com

9.只显示 HTTP 头
`curl -I http://www.codebelief.com `

10.自定义User-Agent
`curl -A “Mozilla/5.0 (Android; Mobile; rv:35.0) Gecko/35.0 Firefox/35.0” http://www.baidu.com `

11.自定义 header
`curl -H “Referer: www.example.com” -H “User-Agent: Custom-User-Agent” http://www.baidu.com `

12.POST 请求
POST 请求,-d 用于指定发送的数据,-X 用于指定发送数据的方式:

curl -d “userName=tom&passwd=123456” -X POST http://www.example.com/login
在使用 -d 的情况下,如果省略 -X,则默认为 POST 方式:
curl -d “userName=tom&passwd=123456” http://www.example.com/login
13.一些其他的参数
`-A/--user-agent设置用户代理发送给服务器

-b/--cookie cookie字符串或文件读取位置
-c/--cookie-jar 操作结束后把cookie写入到这个文件中
-C/--continue-at 断点续转
-D/--dump-header 把header信息写入到该文件中
-e/--referer 来源网址
-f/--fail 连接失败时不显示http错误
-o/--output 把输出写到该文件中
-O/--remote-name 把输出写到该文件中,保留远程文件的文件名
-r/--range 检索来自HTTP/1.1或FTP服务器字节范围
-s/--silent 静音模式。不输出任何东西
-T/--upload-file 上传文件
-u/--user 设置服务器的用户和密码
-w/--write-out [format] 什么输出完成后
-x/--proxy在给定的端口上使用HTTP代理
-#/--progress-bar 进度条显示当前的传送状态`
【网页爬虫|CURL的使用】参考:
https://blog.csdn.net/mouday/article/details/83929376

    推荐阅读