网页信息抓取软件(优采云采集器V9中的http模拟请求可以发起一个http请求 )

优采云 发布时间: 2021-12-20 22:11

  网页信息抓取软件(优采云采集器V9中的http模拟请求可以发起一个http请求

)

  使用网络爬虫采集网页时,可以通过浏览器发出http模拟请求,自动获取登录cookie、返回头信息、查看源码等。它是如何工作的?这里给大家分享一下网络爬虫优采云采集器V9中的http模拟请求。很多请求工具都是仿照优采云采集器中的请求工具建模的,大家可以借鉴一下。

  HTTP模拟请求可以设置如何发起http请求,包括设置请求信息、返回头信息等,并具有自动提交功能。该工具主要由两部分组成:一个MDI父表单和一个请求配置表单。

  

  1.2 请求信息:一般设置和更多高级设置。1.1 请求地址:正确填写请求的链接。

  (1)常规设置:

  ①源页面:正确填写请求页面的源页面地址。

  ②发送方式:get 和 post。选择发帖时,请在发送数据的文本框中正确填写发帖数据。

  ③客户端:在此处选择或粘贴浏览器类型。

  ④Cookie 值:有读取本地登录信息和自定义两个选项。

  高级设置:收录如图所示的一系列设置。当不需要上述高级设置时,单击关闭按钮。

  

  ②网页编码:自动识别和自定义两种选择。如果选择自定义,自定义后会出现编码选择框,在选择框中选择需要的编码。

  ①网页压缩:选择压缩方式,可以全选,对应请求头信息的Accept-Encoding。

  ③Keep-Alive:判断当前请求是否与互联网资源建立持久链接。

  ④自动重定向:决定当前请求是否跟随重定向响应。

  ⑤基于Windows认证类型的表单:正确填写用户名、密码、域,没有认证的不需要填写。

  ⑥更多的发送头信息:显示发送的头信息,以列表的形式展示,更清晰直观的了解请求头信息。这里的头信息对用户来说是可选的。如果要请求某个名称的头信息,请选中与 Header 名称对应的框。标题名称和标题值都可以编辑。

  1.3 返回头信息:会详细列出请求成功后返回的头信息,如下图所示。

  

  1.5 Preview:本次预览请求成功后可以返回的页面。1.4 源代码:请求完成后,工具会自动跳转到源代码选项,在这里可以查看请求成功后返回的页面的源代码信息。

  1.6 自动运行选项:可以设置自动刷新/提交的时间间隔和运行次数。启用此操作后,该工具会以一定的时间间隔和运行次数自动请求服务器。如果你想取消这个操作,点击后面的停止按钮。

  配置好以上信息后,点击“开始查看”按钮查看请求信息,返回头部信息等,为了避免填写请求信息,可以点击“粘贴外部监控HTTP请求数据”按钮粘贴请求头信息,然后单击开始查看按钮。这个快捷方式是在粘贴的头信息格式正确的情况下提供的,否则会弹出错误提示框。

  更多关于网络爬虫工具或网页采集的教程可以参考优采云采集器的系列教程。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线