c 抓取网页数据( 执行后cookie信息就被存到了(.txt))

优采云 发布时间: 2022-04-14 18:13

  c 抓取网页数据(

执行后cookie信息就被存到了(.txt))

  # curl -D cookied.txt http://www.linux.com

  cookie信息在执行后会保存在cookied.txt中

  注意:-c(小写)生成的cookie与-D中的cookie不同。

  5.3:使用cookies

  很多网站会监控你的cookie信息来判断你是否按照规则访问他们的网站,所以我们需要使用保存的cookie信息。内置选项:-b

  # curl -b cookiec.txt http://www.linux.com

  6、仿浏览器

  有些网站 需要特定的浏览器才能访问它们,而有些则需要特定的版本。 curl 内置选项:-A 允许我们指定浏览器访问 网站

  # curl -A "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.0)" http://www.linux.com

  这样服务器会认为是用IE访问的8.0

  7、假引用(热链接)

  很多服务器都会检查http访问的referer来控制访问。比如先访问首页,再访问首页上的邮箱页面,这里访问邮箱的referer地址就是访问首页成功后的页面地址。是小偷

  curl中的内置选项:-e允许我们设置referer

  # curl -e "www.linux.com" http://mail.linux.com

  这会让服务器认为你来自点击一个链接

  8、下载文件

  8.1:使用curl下载文件。

  #使用内置选项:-o(小写)

  # curl -o dodo1.jpg http:www.linux.com/dodo1.JPG

  #使用内置选项:-O(大写)

  # curl -O http://www.linux.com/dodo1.JPG

  这将使用服务器上的名称将文件保存在本地

  8.2:循环下载

  有时下载的图片可能与名字的前半部分相同,但最后的尾名不同

  # curl -O http://www.linux.com/dodo[1-5].JPG

  这将保存所有 dodo1、dodo2、dodo3、dodo4 和 dodo5

  8.3:下载重命名

  # curl -O http://www.linux.com/{hello,bb}/dodo[1-5].JPG

  因为下载的hello和bb中的文件名分别是dodo1、dodo2、dodo3、dodo4、dodo5。所以第二次下载会覆盖第一次下载,所以需要重命名文件。

  # curl -o #1_#2.JPG http://www.linux.com/{hello,bb}/dodo[1-5].JPG

  这样在hello/dodo1.JPG中下载的文件会变成hello_dodo1.JPG等其他文件,从而有效避免文件被覆盖

  8.4:分块下载

  有时候下载的东西会比较大,这个时候我们可以分段下载。使用内置选项:-r

  # curl -r 0-100 -o dodo1_part1.JPG http://www.linux.com/dodo1.JPG

# curl -r 100-200 -o dodo1_part2.JPG http://www.linux.com/dodo1.JPG

# curl -r 200- -o dodo1_part3.JPG http://www.linux.com/dodo1.JPG

# cat dodo1_part* > dodo1.JPG

  这将允许您查看渡渡鸟的内容1.JPG

  8.5:通过ftp下载文件

  curl可以通过ftp下载文件,curl提供了两种从ftp下载的语法

  # curl -O -u 用户名:密码 ftp://www.linux.com/dodo1.JPG

# curl -O ftp://用户名:密码@www.linux.com/dodo1.JPG

  8.6:显示下载进度条

  # curl -# -O http://www.linux.com/dodo1.JPG

  8.7:不会显示下载进度信息

  # curl -s -O http://www.linux.com/dodo1.JPG

  9、断点续传

  在 Windows 中,我们可以使用迅雷等软件从断点恢复上传。 curl也可以通过内置选项达到同样的效果:-C

  如果你在下载dodo时突然断线1.JPG,可以使用以下方法恢复上传

  # curl -C -O http://www.linux.com/dodo1.JPG

  10、上传文件

  curl 不仅可以下载文件,还可以上传文件。通过内置选项实现:-T

  # curl -T dodo1.JPG -u 用户名:密码 ftp://www.linux.com/img/

  这会上传文件dodo1.JPG

  到 ftp 服务器

  11、显示抓取错误

  # curl -f http://www.linux.com/error

  其他参数(此处转载):

  

  -a/--append 上传文件时,附加到目标文件

--anyauth 可以使用“任何”身份验证方法

--basic 使用HTTP基本验证

-B/--use-ascii 使用ASCII文本传输

-d/--data HTTP POST方式传送数据

--data-ascii 以ascii的方式post数据

--data-binary 以二进制的方式post数据

--negotiate 使用HTTP身份验证

--digest 使用数字身份验证

--disable-eprt 禁止使用EPRT或LPRT

--disable-epsv 禁止使用EPSV

--egd-file 为随机数据(SSL)设置EGD socket路径

--tcp-nodelay 使用TCP_NODELAY选项

-E/--cert 客户端证书文件和密码 (SSL)

--cert-type 证书文件类型 (DER/PEM/ENG) (SSL)

--key 私钥文件名 (SSL)

--key-type 私钥文件类型 (DER/PEM/ENG) (SSL)

--pass 私钥密码 (SSL)

--engine 加密引擎使用 (SSL). "--engine list" for list

--cacert CA证书 (SSL)

--capath CA目 (made using c_rehash) to verify peer against (SSL)

--ciphers SSL密码

--compressed 要求返回是压缩的形势 (using deflate or gzip)

--connect-timeout 设置最大请求时间

--create-dirs 建立本地目录的目录层次结构

--crlf 上传是把LF转变成CRLF

--ftp-create-dirs 如果远程目录不存在,创建远程目录

--ftp-method [multicwd/nocwd/singlecwd] 控制CWD的使用

--ftp-pasv 使用 PASV/EPSV 代替端口

--ftp-skip-pasv-ip 使用PASV的时候,忽略该IP地址

--ftp-ssl 尝试用 SSL/TLS 来进行ftp数据传输

--ftp-ssl-reqd 要求用 SSL/TLS 来进行ftp数据传输

-F/--form 模拟http表单提交数据

-form-string 模拟http表单提交数据

-g/--globoff 禁用网址序列和范围使用{}和[]

-G/--get 以get的方式来发送数据

-h/--help 帮助

-H/--header 自定义头信息传递给服务器

--ignore-content-length 忽略的HTTP头信息的长度

-i/--include 输出时包括protocol头信息

-I/--head 只显示文档信息

-j/--junk-session-cookies 读取文件时忽略session cookie

--interface 使用指定网络接口/地址

--krb4 使用指定安全级别的krb4

-k/--insecure 允许不使用证书到SSL站点

-K/--config 指定的配置文件读取

-l/--list-only 列出ftp目录下的文件名称

--limit-rate 设置传输速度

--local-port 强制使用本地端口号

-m/--max-time 设置最大传输时间

--max-redirs 设置最大读取的目录数

--max-filesize 设置最大下载的文件总量

-M/--manual 显示全手动

-n/--netrc 从netrc文件中读取用户名和密码

--netrc-optional 使用 .netrc 或者 URL来覆盖-n

--ntlm 使用 HTTP NTLM 身份验证

-N/--no-buffer 禁用缓冲输出

-p/--proxytunnel 使用HTTP代理

--proxy-anyauth 选择任一代理身份验证方法

--proxy-basic 在代理上使用基本身份验证

--proxy-digest 在代理上使用数字身份验证

--proxy-ntlm 在代理上使用ntlm身份验证

-P/--ftp-port 使用端口地址,而不是使用PASV

-Q/--quote 文件传输前,发送命令到服务器

--range-file 读取(SSL)的随机文件

-R/--remote-time 在本地生成文件时,保留远程文件时间

--retry 传输出现问题时,重试的次数

--retry-delay 传输出现问题时,设置重试间隔时间

--retry-max-time 传输出现问题时,设置最大重试时间

-S/--show-error 显示错误

--socks4 用socks4代理给定主机和端口

--socks5 用socks5代理给定主机和端口

-t/--telnet-option Telnet选项设置

--trace 对指定文件进行debug

--trace-ascii Like --跟踪但没有hex输出

--trace-time 跟踪/详细输出时,添加时间戳

--url Spet URL to work with

-U/--proxy-user 设置代理用户名和密码

-V/--version 显示版本信息

-X/--request 指定什么命令

-y/--speed-time 放弃限速所要的时间。默认为30

-Y/--speed-limit 停止传输速度的限制,速度时间'秒

-z/--time-cond 传送时间设置

-0/--http1.0 使用HTTP 1.0

-1/--tlsv1 使用TLSv1(SSL)

-2/--sslv2 使用SSLv2的(SSL)

-3/--sslv3 使用的SSLv3(SSL)

--3p-quote like -Q for the source URL for 3rd party transfer

--3p-url 使用url,进行第三方传送

--3p-user 使用用户名和密码,进行第三方传送

-4/--ipv4 使用IP4

-6/--ipv6 使用IP6

  

  转载于:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线