[智能模式]如何设置分页
优采云 发布时间: 2020-08-08 06:36在智能模式下,优采云采集器将自动识别分页,并且分页类型通常包括以下内容:
(1)寻呼按钮
(2)滚动加载
(3)瀑布式分页(滚动加载)+分页按钮
(4)不要启用分页
但是偶尔,识别结果是错误的,其原因通常包括以下原因:
(1)网页加载速度太慢,软件自动识别结束后出现分页按钮
(2)页面上有多个分页按钮,软件最后只会选择其中一个.
(3)在同时存在滚动加载和分页按钮的情况下,在软件多次滚动后,分页按钮仍不出现.
(4)当前页面上的分页按钮软件暂时不兼容
“页面设置”的设置菜单如下图所示.
对于不同的寻呼类型,设置步骤如下:
(1)寻呼按钮
i: 自动识别分页符:
点击“自动识别分页符”选项.
软件将自动识别网页上的分页按钮. 识别成功后,页面将自动滚动到分页按钮的位置,并使用红色背景色框进行框架选择.
ii: 单击分页按钮:
如果软件无法自动识别分页按钮,则需要手动“单击分页按钮”.
第一步: 单击“单击分页按钮”选项
第2步: 点击页面上的分页按钮
iii: 编辑分页XPath:
如果以上两种情况均不能正确识别分页符,则需要编写XPath来识别分页符.
(2)瀑布式分页(滚动加载):
适用于没有分页按钮并通过滚动加载内容的网页.
(3)瀑布式分页(滚动加载)+分页按钮:
适用于开始时没有分页按钮,并且需要在加载页面按钮之前滚动几次页面,或者已经显示了下一页按钮,但当前页面内容未显示的网页,并且该页面需要滚动多次才能显示当前页面的全部内容.
这种分页很难识别. 尽管软件会在自动识别过程中尝试自动滚动,但是滚动次数可能与当前页面所需的滚动次数不一致,因此这种分页通常需要一些手动操作.
主要分为以下几种情况:
第一种类型: 可以识别滚动加载,但不能识别分页按钮
请手动滚动网页,直到页面按钮出现在页面上,然后在页面设置中选择“自动识别分页符”.
如果自动识别失败,请选择“单击分页按钮”,然后转到页面并单击分页按钮.
第二种类型: 识别分页按钮,但不识别滚动加载
在这种情况下,您只需要基于原创的页面设置选择“瀑布页面(滚动负荷)”选项即可.
注意: 如果不需要通过滚动加载当前网页,并且软件可以识别滚动加载,则此时不会影响采集结果,但是取消滚动加载选项可以提高采集速度.
(4)不要启用分页
如果不需要分页,请选择“不启用分页”.
备注: 是否启用分页与当前网页上是否有分页按钮无关,仅与您的采集需求有关,不启用分页可以缩小采集范围并提高采集速度.