完美:「按键精灵」伪装成浏览器采集网页数据

优采云发布时间: 2022-11-21 04:11

　　完美:「按键精灵」伪装成浏览器

　　大家好，我是三分钟学院公众号郭丽媛~

　　这两天群友接了一个任务，用自定义脚本采集500开奖的开奖数据。

　　采集

到的目标网址：

　　遇到什么问题？

　　使用按钮直接获取网页源码得到的结果如下：

" />

　　TracePrint url.get("https://kaijiang.500.com/shtml/ssq/03001.shtml")

　　当前脚本第1行：

301 Moved Permanently

nginx

<p>

" />

</p>

　　返回结果是301重定向（不是报错），无法获取网页html源码。我用浏览器自带的抓包调试工具检查了一下，并没有跳转到其他网址。我猜是因为网页限制了爬虫采集

，做了假跳转。

　　因为浏览器可以正常访问页面，想到的方法就是伪装成浏览器获取网页源代码。

　　干货教程:[科研软件推荐]网页数据

　　优采云

Collector是一款互联网数据采集器，可以根据不同的网站提供多种网页采集策略和配套资源，接入网页文档。通过设计工作流，使采集过程自动化，从而快速采集整合网页数据，完成用户数据采集的目的。

　　1. 输入网址：

" />

　　这个用来输入要采集的网页的URL

　　2.设计流程：

　　这个用来设计任务规则的自动化流程步骤，比如：你想让任务规则打开哪个网页，做什么步骤等等都是在设计工作流程中完成的，设计工作流程是核心任务规则的步骤

　　3.任务开始选择：

" />

　　如果规则写对了，这里可以启动单机采集或者云采集的任务规则，可以设置定时计划

0

2022-11-21

网页文章采集工具

0 个评论

要回复文章请先登录或注册