自动识别采集内容(优采云瀑布流+页码的组合形式展示页码)

优采云发布时间: 2021-09-14 08:16

　　通常采集list 数据时，会有分页，采集pagination 数据呢？在优采云采集器中，我们可以采集以下类型的分页

　　1.自动识别分页

　　优采云采集器可以识别90%的分页元素，通过选择分页设置->自动识别分页。

　　2.手动设置分页

　　无法自动识别时，我们需要手动设置分页。如何手动设置分页？

　　首先选择分页设置->手动设置分页，点击选择分页元素，在浏览器中找到下一个页面元素并点击。

　　3.瀑布分页

　　现在很多网页都使用瀑布分页技术，比如百度图片、知乎、今日头条。对于这种类型的网页，直接选择瀑布分页。采集器会自动滚动到页面，直到分页完成。

　　4.瀑布流+页码组合

　　有些网站会以瀑布流+分页页码的形式显示，比如向下滚动5次才会显示分页页码。步骤如下：

　　使用脚本命令手动添加滚动命令，具体设置滚动页面，滚动间隔时间，具体需要测试网站。第三步是设置。其他设置中勾选Execute 采集 script on pagination，这样每次打开分页都会执行scroll命令。

　　加载更多表单

　　有些网站会使用加载更多按钮来显示更多数据。采集这种类型的页面，需要手动设置分页，点击下一页按钮加载更多。

　　设置采集max 分页

　　您可以将最大页数设置为采集。这在更新采集时非常必要。比如网站每天更新前3页的内容，我们可以设置最大分页为3页。

0

2021-09-14

自动识别采集内容

0 个评论

要回复文章请先登录或注册