不用智能识别,可自己配置采集流程,智能翻页
优采云 发布时间: 2021-08-23 04:26不用智能识别,可自己配置采集流程,智能翻页
有些网页没有下一页按钮,但有[加载更多]或[再显示20个]等按钮。通过不断点击这些按钮,您可以翻页并加载新数据。
搜狗微信首页和其他页面都是这种情况。
对于这类网页,使用智能识别和自配置采集规则,可以实现翻页。具体设置方法如下:
1、智能识别实现【点击加载更多页面】
示例网址,例如:
优采云的智能识别,支持【加载更多内容】这种翻页的智能识别,如下图:
新手入门第8课:采集原理与流程执行逻辑,我们说过流程的执行逻辑是先从上到下,再从内到外。上图中流程的执行逻辑是:先打开网页,然后点击【加载更多内容】进行翻页。翻页完成后,提取所有列表数据。
这里有问题。如果网页上的【加载更多内容】按钮可以无限点击,优采云会一直点击,很容易导致程序崩溃,采集就没有数据了。因此,我们可以设置一定的点击次数,优采云执行设定的翻页次数后,采集数据就会开始。建议点击次数不超过500次,视网页情况和采集需求而定。
这个例子中的网站,经过观察发现,点击5次【加载更多内容】就结束了,没有出现新的内容。因此,我们可以将翻页次数改为5,设置方法如下图:
启动本地采集,看看采集。结果:优采云第一次点击【加载更多内容】5次到达底部。此时页面上有100个文章列表。随后,优采云丢弃了这100个文章列表采集的所有数据。
2、个人配置采集流程实现【点击加载更多页面】
如果不需要智能识别,可以自行配置采集进程。
按照第六课:使用采集多页数据翻页的方法,配置一个【循环翻页】,然后按照采集List数据中的方法,配置一个【循环列表】。
优采云 自动生成的进程不符合采集这个网页的情况,需要手动调整:按住【循环列表】步骤,拖到【循环翻转】的后面].
此次调整的原因在上面有详细说明。
同理,我们根据网页的情况设置适当的翻页次数:
我们还发现自动生成的列表XPath://BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI有一些问题, only 可以定位前 20 个 文章 列表。修改为//BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL/LI后,可以定位到所有文章列表。为什么要这样修改呢?请查看 XPath 教程。
特别说明:
一个。 优采云 在导出数据时支持重复数据删除。如果不介意采集流程中的重复数据,则无需调整流程逻辑。