不用智能识别，可自己配置采集流程，智能翻页

优采云发布时间: 2021-08-23 04:26

　　有些网页没有下一页按钮，但有[加载更多]或[再显示20个]等按钮。通过不断点击这些按钮，您可以翻页并加载新数据。

　　搜狗微信首页和其他页面都是这种情况。

　　对于这类网页，使用智能识别和自配置采集规则，可以实现翻页。具体设置方法如下：

　　1、智能识别实现【点击加载更多页面】

　　示例网址，例如：

　　优采云的智能识别，支持【加载更多内容】这种翻页的智能识别，如下图：

　　新手入门第8课：采集原理与流程执行逻辑，我们说过流程的执行逻辑是先从上到下，再从内到外。上图中流程的执行逻辑是：先打开网页，然后点击【加载更多内容】进行翻页。翻页完成后，提取所有列表数据。

　　这里有问题。如果网页上的【加载更多内容】按钮可以无限点击，优采云会一直点击，很容易导致程序崩溃，采集就没有数据了。因此，我们可以设置一定的点击次数，优采云执行设定的翻页次数后，采集数据就会开始。建议点击次数不超过500次，视网页情况和采集需求而定。

　　这个例子中的网站，经过观察发现，点击5次【加载更多内容】就结束了，没有出现新的内容。因此，我们可以将翻页次数改为5，设置方法如下图：

　　启动本地采集，看看采集。结果：优采云第一次点击【加载更多内容】5次到达底部。此时页面上有100个文章列表。随后，优采云丢弃了这100个文章列表采集的所有数据。

　　2、个人配置采集流程实现【点击加载更多页面】

　　如果不需要智能识别，可以自行配置采集进程。

　　按照第六课：使用采集多页数据翻页的方法，配置一个【循环翻页】，然后按照采集List数据中的方法，配置一个【循环列表】。

　　优采云自动生成的进程不符合采集这个网页的情况，需要手动调整：按住【循环列表】步骤，拖到【循环翻转】的后面].

　　此次调整的原因在上面有详细说明。

　　同理，我们根据网页的情况设置适当的翻页次数：

　　我们还发现自动生成的列表XPath：//BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL[1]/LI有一些问题， only 可以定位前 20 个文章列表。修改为//BODY[@id="loginWrap"]/DIV[4]/DIV[1]/DIV[3]/UL/LI后，可以定位到所有文章列表。为什么要这样修改呢？请查看 XPath 教程。

　　特别说明：

　　一个。优采云在导出数据时支持重复数据删除。如果不介意采集流程中的重复数据，则无需调整流程逻辑。

0

2021-08-23

智能文章采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

不用智能识别，可自己配置采集流程，智能翻页

0 个评论

发起人

AI时代内容工厂

不用智能识别，可自己配置采集流程，智能翻页

0 个评论

发起人

相关问题