无代码爬虫,看完就会:你不需要会爬虫,你只要会爬虫软件就好了(二)
优采云 发布时间: 2022-07-19 03:28无代码爬虫,看完就会:你不需要会爬虫,你只要会爬虫软件就好了(二)
上期我们说到了无代码爬虫软件优采云采集器的模板使用,也留了一个实际工作中遇到的问题没有解决,今天我们就来一起看看解决思路吧~
(戳链接回顾上期)
让我们回顾一下上期的问题:批量点击一系列相似网页的某一个按钮。
这个同学要下载的是各个市政府的报告。他是这样做的:
江苏省有13个市、98个区,每个区有五个报告要下载。
那就是要点击98*5=490次,刷新切换98次页面……点是不可能点的。
打开网站链接,按F12,观察网页源代码:
我知道有朋友看到这里已经头大了,心里已经在骂看不懂别演示了。
学习嘛,你不痛苦这几分钟,那就等着痛苦手动做吧。
这里先补充一个小背景知识:
网页是由代码写的,我们访问看到的图片、文字,都是网站管理员早就写好的代码,因此,打开任一网页,你看到的东西都是代码呈现的。我们要做的就是把代码给扒下来。
任意浏览器,按F12都会调出开发者调试工具,点控制台选项,不需要看懂啥,只用点调出来的页面的那个长得像“鼠标”的按钮。
鼠标滑动到网页上我们原本需要人工点击的位置,点击。右边的窗口就自动帮我们定位到了相应的代码位置。
就是它!搞它!盘它!就是它害得我们有这么多工作!
理论上来说,在网页页面上点击链接和点击代码窗口的链接,效果会是一样的,但是这次我们点了没有反应,那一定是哪里出了问题,别着急。我先去点击原页面看看是咋回事。
刚刚*敏*感*词*里演示的虽然很快,但是我们能看到,在点击下载按钮后,先是有一个页面弹了出来。幸好我眼疾手快把这个页面给截了下来。长这样:
有没有发现什么!
虽然我看不懂代码,但是在网页源代码那张图里,那个标红了的超链接,好像是上图网址里面的uuid!
大胆猜测,是不是只要我能够拿到所有市区的uuid,然后把网址链接补充完整,那就能实现批量下载报告了?!
说干就干啊!
不要着急~让我们来复习一下今天学的~
1
网页都是由代码写的,按F12可以查看源代码。
2
需要抓取的内容在源代码里,按F12上像个小箭头一样的标识就可以定位了。
3
网页地址似乎有一种特殊的结构,有规律可循。
下期预告
abxshdhsdicidsihciohivhi占位占位
如何利用优采云自定义任务
如何批量访问一系列链接
……
快来一起学习~!