自动识别采集内容(优采云瀑布流+页码的组合形式展示页码)
优采云 发布时间: 2021-09-14 08:16自动识别采集内容(优采云瀑布流+页码的组合形式展示页码)
通常采集list 数据时,会有分页,采集pagination 数据呢?在优采云采集器中,我们可以采集以下类型的分页
1.自动识别分页
优采云采集器可以识别90%的分页元素,通过选择分页设置->自动识别分页。
2.手动设置分页
无法自动识别时,我们需要手动设置分页。如何手动设置分页?
首先选择分页设置->手动设置分页,点击选择分页元素,在浏览器中找到下一个页面元素并点击。
3.瀑布分页
现在很多网页都使用瀑布分页技术,比如百度图片、知乎、今日头条。对于这种类型的网页,直接选择瀑布分页。 采集器会自动滚动到页面,直到分页完成。
4.瀑布流+页码组合
有些网站会以瀑布流+分页页码的形式显示,比如向下滚动5次才会显示分页页码。步骤如下:
使用脚本命令手动添加滚动命令,具体设置滚动页面,滚动间隔时间,具体需要测试网站。第三步是设置。其他设置中勾选Execute 采集 script on pagination,这样每次打开分页都会执行scroll命令。
加载更多表单
有些网站 会使用加载更多按钮来显示更多数据。 采集这种类型的页面,需要手动设置分页,点击下一页按钮加载更多。
设置采集max 分页
您可以将最大页数设置为采集。这在更新采集 时非常必要。比如网站每天更新前3页的内容,我们可以设置最大分页为3页。