免费网页采集器(优采云采集器V9中的http模拟请求工具页地址)

优采云 发布时间: 2022-01-23 13:19

  免费网页采集器(优采云采集器V9中的http模拟请求工具页地址)

  在使用网络爬虫采集网页时,发出HTTP模拟请求可以自动获取登录cookie,返回header信息,通过浏览器查看源码。它是如何工作的?这里跟大家分享一下网络爬虫优采云采集器V9中的http模拟请求。很多请求工具都是在优采云采集器中的请求工具之后写的,大家可以借鉴一下。

  HTTP模拟请求可以设置如何发起一个HTTP请求,包括设置请求信息、返回头信息等。并具有自动提交的功能。该工具主要由两部分组成:MDI父表单和请求配置表单。

  

  1.2请求信息:两部分:常规设置和更高级设置。1.1请求地址:正确填写请求的链接。

  (1)常规设置:

  ①来源页面:正确填写请求页面的来源页面地址。

  ②发送方式:get和post,选择post时,请在发送数据文本框中正确填写发帖数据。

  ③客户端:在此处选择或粘贴浏览器类型。

  ④Cookie值:有读取本地登录信息和自定义两种选择。

  高级设置:收录如图所示的一系列设置。当不需要上述高级设置时,单击关闭按钮。

  

  ②网页编码:有自动识别和自定义两种选择。如果选择自定义,自定义后会出现一个编码选择框。在选择框中选择请求的编码。

  ①网页压缩:选择压缩方式,可以全选,对应请求头信息的Accept-Encoding。

  ③Keep-Alive:判断当前请求是否与互联网资源建立持久链接。

  ④自动跳转:判断当前请求是否应该跟随重定向响应。

  ⑤ 基于Windows认证类型的表格:正确填写用户名、密码、域,无身份认证时无需填写。

  ⑥更多发送头信息:显示发送的头信息,以列表的形式更清晰直观的显示请求的头信息。此处的标头信息对于用户是可选的。要请求某个名称的头信息,请选中该头名称对应的复选框。Header 名称和 Header 值都可以编辑。

  1.3 返回头信息:会详细列出请求成功后返回的头信息,如下图所示。

  

  1.5Preview:本次预览请求成功后可以返回的页面。1.4 源码:请求完成后,工具会自动跳转到源码选项,在这里可以查看请求成功后返回的页面的源码信息。

  1.6 自动操作选项:可以设置自动刷新/提交的时间间隔和操作次数。启用此操作后,该工具会以一定的时间间隔和操作次数自动向服务器请求。如果要取消此操作,点击后面的停止按钮即可。

  配置好以上信息后,点击“开始查看”按钮,即可查看请求信息、返回头信息等。为避免填写请求信息,可以点击“粘贴外部监控HTTP请求数据”按钮粘贴请求标题信息,然后单击开始查看按钮。这个快捷方式的前提是粘贴的表头信息格式正确,否则会弹出错误提示框。

  更多关于网页抓取工具或网页采集的教程可以参考优采云采集器的系列教程。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线