java抓取网页数据(网页请求指令获取目标数据(Chrome浏览器需将插件升级到1.1))

优采云 发布时间: 2021-10-30 14:12

  java抓取网页数据(网页请求指令获取目标数据(Chrome浏览器需将插件升级到1.1))

  使用网页监控指令获取数据问题描述

  在网页抓取数据时,有些图表数据无法抓取,但需要的数据可以在开发者模式的Network-response中找到。您可以使用监控网页请求命令获取目标数据。插件升级为1.1)。

  

  

  脚步

  第一步,找到目标数据所在的url;

  打开目标数据所在的网页(以下简称“网页”),按F12打开开发者模式;

  按 ctrl + R 重新加载;

  点击左边的路径,查看其响应中是否有目标数据;

  

  如果有目标数据,复制其url不变的部分(一般是会改变的部分,比如日期时间或者ID)

  

  第二步,*敏*感*词*第一步获取的URL;

  监控步骤

  获取网页对象-开始*敏*感*词*请求-跳转到新的URL(重新加载)-延迟执行(等待加载完成)-获取网页监控结果(获取第一步获取的URL的监控结果)-停止监控网页要求。

  流程实例

  示例流程及相关参数配置如下(这里获取的网页对象是第一步中目标数据所在的网页,也可以使用网页命令获取目标网页对象) .

  过程:

  

  

  

  

  第三步,获取目标数据;

  循环获取的Response_body_list;

  过程:

  

  转换数据格式:循环项是一个收录目标url数据的字典,响应中的数据收录在循环项字典的键["body"]中,body是一个字符串,可以转换成一个json 对象中的数据被提取出来。

  

  

  提取json对象中的目标信息(可以将打印的json文本复制到网站中观察数据结构,方便数据提取);

  

  

  

  问题没有解决?去社区提问 版权所有,由 Gitbook 提供支持

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线