自动识别采集内容(优采云瀑布流+页码的组合形式展示页码)

优采云 发布时间: 2021-09-14 08:16

  自动识别采集内容(优采云瀑布流+页码的组合形式展示页码)

  通常采集list 数据时,会有分页,采集pagination 数据呢?在优采云采集器中,我们可以采集以下类型的分页

  1.自动识别分页

  优采云采集器可以识别90%的分页元素,通过选择分页设置->自动识别分页。

  

  2.手动设置分页

  无法自动识别时,我们需要手动设置分页。如何手动设置分页?

  首先选择分页设置->手动设置分页,点击选择分页元素,在浏览器中找到下一个页面元素并点击。

  

  3.瀑布分页

  现在很多网页都使用瀑布分页技术,比如百度图片、知乎、今日头条。对于这种类型的网页,直接选择瀑布分页。 采集器会自动滚动到页面,直到分页完成。

  4.瀑布流+页码组合

  有些网站会以瀑布流+分页页码的形式显示,比如向下滚动5次才会显示分页页码。步骤如下:

  使用脚本命令手动添加滚动命令,具体设置滚动页面,滚动间隔时间,具体需要测试网站。第三步是设置。其他设置中勾选Execute 采集 script on pagination,这样每次打开分页都会执行scroll命令。

  

  加载更多表单

  有些网站 会使用加载更多按钮来显示更多数据。 采集这种类型的页面,需要手动设置分页,点击下一页按钮加载更多。

  设置采集max 分页

  您可以将最大页数设置为采集。这在更新采集 时非常必要。比如网站每天更新前3页的内容,我们可以设置最大分页为3页。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线