【智能模式】如何设置分页
优采云 发布时间: 2020-08-11 12:08在智能模式中,优采云采集器会手动辨识分页,分页类型一般包括以下几种:
(1)分页按键
(2)滚动加载
(3)瀑布流分页(滚动加载)+ 分页按键
(4)不启用分页
但是偶而也会发生辨识结果错误的情况,原因一般包括以下几种:
(1)网页加载速率过慢,软件手动辨识结束以后才出现分页按键
(2)页面中存在多个分页按键,软件最终只会选择其中的一个
(3)在滚动加载和分页按键同时存在的情况中,软件手动滚动多次以后分页按键尚未出现。
(4)当前页面中的分页按键软件暂时未兼容
“分页设置”的设置菜单如下图所示。
针对不同的分页类型,设置步骤如下:
(1)分页按键
i:自动辨识分页:
点击“自动辨识分页”选项。
软件会手动辨识网页上的分页按键,在辨识成功后,页面会手动滚到分页按键的位置,并且用白色的底色框进行框选。
ii:点选分页按键:
如果软件难以手动辨识出分页按键,则须要自动“点选分页按键”。
第一步:点击“点选分页按键”选项
第二步:点击页面中的分页按键
iii:编辑分页XPath:
如果以上两种情况都未能正确辨识分页,此时须要通过编撰XPath的方法来辨识分页。
(2)瀑布流分页(滚动加载):
适合没有分页按键,通过滚动来加载内容的网页。
(3)瀑布流分页(滚动加载)+ 分页按键:
适合一开始没有分页按键,需要通过滚动网页多次后才会加载出分页按键的网页,或者早已显示了下一页按键,但是当前网页内容未展示完毕,需要滚动网页多次后才会显示当前网页的全部内容。
这种分页类型比较难辨识,尽管软件在手动辨识时会尝试手动滚动,但是这个滚动的次数和当前网页所需的滚动次数可能不一致,所以这些类型的分页一般须要加入一些人工操作。
主要分为以下几种情况:
第一种:识别出滚动加载,但是未辨识出分页按键
请自动滚动网页,直到页面中出现分页按键,然后选择分页设置中的“自动辨识分页”。
如果手动辨识失败,则选择“点选分页按键”,然后去页面中点击分页按键。
第二种:识别出分页按键,但是未辨识出滚动加载
这种情况下只需在原有分页设置基础上,选择“瀑布流分页(滚动加载)”选项即可。
备注:如果当前网页不需要滚动加载,而软件辨识出滚动加载,此时不会影响采集结果,但是取消滚动加载选项可以提高采集的速率。
(4)不启用分页
如果不需要分页,请选择“不启用分页”。
备注:是否启用分页和当前网页是否存在分页按键无关,只和你的采集需求有关,不启用分页可以缩小采集范围,提升采集速度。