完美:「按键精灵」伪装成浏览器采集网页数据
优采云 发布时间: 2022-11-21 04:11完美:「按键精灵」伪装成浏览器采集网页数据
大家好,我是三分钟学院公众号郭丽媛~
这两天群友接了一个任务,用自定义脚本采集500开奖的开奖数据。
采集
到的目标网址:
遇到什么问题?
使用按钮直接获取网页源码得到的结果如下:
" />
TracePrint url.get("https://kaijiang.500.com/shtml/ssq/03001.shtml")
当前脚本第1行:
301 Moved Permanently
301 Moved Permanently
nginx
<p>
" />
</p>
返回结果是301重定向(不是报错),无法获取网页html源码。我用浏览器自带的抓包调试工具检查了一下,并没有跳转到其他网址。我猜是因为网页限制了爬虫采集
,做了假跳转。
因为浏览器可以正常访问页面,想到的方法就是伪装成浏览器获取网页源代码。
干货教程:[科研软件推荐]网页数据采集--优采云
优采云
Collector是一款互联网数据采集器,可以根据不同的网站提供多种网页采集策略和配套资源,接入网页文档。通过设计工作流,使采集过程自动化,从而快速采集整合网页数据,完成用户数据采集的目的。
1. 输入网址:
" />
这个用来输入要采集的网页的URL
2.设计流程:
这个用来设计任务规则的自动化流程步骤,比如:你想让任务规则打开哪个网页,做什么步骤等等都是在设计工作流程中完成的,设计工作流程是核心任务规则的步骤
3.任务开始选择:
" />
如果规则写对了,这里可以启动单机采集或者云采集的任务规则,可以设置定时计划