完美:「按键精灵」伪装成浏览器采集网页数据

优采云 发布时间: 2022-11-21 04:11

  完美:「按键精灵」伪装成浏览器采集网页数据

  大家好,我是三分钟学院公众号郭丽媛~

  这两天群友接了一个任务,用自定义脚本采集500开奖的开奖数据。

  采集

到的目标网址:

  遇到什么问题?

  使用按钮直接获取网页源码得到的结果如下:

  

" />

  TracePrint url.get("https://kaijiang.500.com/shtml/ssq/03001.shtml")

  当前脚本第1行:

301 Moved Permanently

301 Moved Permanently

nginx

<p>

" />

</p>

  返回结果是301重定向(不是报错),无法获取网页html源码。我用浏览器自带的抓包调试工具检查了一下,并没有跳转到其他网址。我猜是因为网页限制了爬虫采集

,做了假跳转。

  因为浏览器可以正常访问页面,想到的方法就是伪装成浏览器获取网页源代码。

  干货教程:[科研软件推荐]网页数据采集--优采云

采集器

  优采云

Collector是一款互联网数据采集器,可以根据不同的网站提供多种网页采集策略和配套资源,接入网页文档。通过设计工作流,使采集过程自动化,从而快速采集整合网页数据,完成用户数据采集的目的。

  1. 输入网址:

  

" />

  这个用来输入要采集的网页的URL

  2.设计流程:

  这个用来设计任务规则的自动化流程步骤,比如:你想让任务规则打开哪个网页,做什么步骤等等都是在设计工作流程中完成的,设计工作流程是核心任务规则的步骤

  3.任务开始选择:

  

" />

  如果规则写对了,这里可以启动单机采集或者云采集的任务规则,可以设置定时计划

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线