在线抓取网页(在优采云中怎么实现高清大图下文其他图片同理)
优采云 发布时间: 2021-11-04 05:22在线抓取网页(在优采云中怎么实现高清大图下文其他图片同理)
有很多网站,需要向下滚动页面才能加载新数据。相应的,还需要在优采云中设置【页面滚动】。
适用场景:向下滚动条直接到网页底部,出现类似【Loading】的字样,很快出现新数据,滚动条变短弹回。
常见网页:纸本首页、今日头条首页、百度图片搜索、新浪微博首页,都是这样。
鼠标放在图片上,右击,选择【在新标签页中打开图片】查看高清大图
这同样适用于下面的其他图片
以澎湃新闻首页为例。, 我们需要采集 新闻列表数据。打开网页后需要继续向下滚动以加载新数据。
如何在优采云中实现?以下是具体步骤。
步骤一、进入自定义任务编辑页面
将URL复制到客户端首页优采云的输入框,点击开始采集,进入自定义任务配置页面。
步骤二、 设置滚动方式,调整滚动次数,以及每次间隔
点击步骤打开网页,在下方步骤设置区点击高级设置,找到页面滚动,点击查看页面滚动。此网页可无限滚动。优采云 的默认设置是滚动到 [Scroll Mode] 的底部。默认为 [Scroll Times] 100 次,默认 [Each interval] 为 1 秒。您可以根据实际需要进行调整。【每个间隔】时间需要比网页上的数据加载时间稍长(网页上的数据加载时间与网速等因素有关)。
结合本次网站的加载特性,这里修改【Scroll Mode】向下滚动一屏(一般情况下建议选择向下滚动一屏);为了演示方便,这里设置【滚动次数】】5次。
第三步:使用第三课中学到的方法:采集List Data配置列表数据采集。
启动采集,看看采集的结果。优采云自动执行【直接滚动到底部】5次,然后采集5次后滚动数据。
特别说明:
1、此网页正在无限向下滚动以加载数据。优采云 无法采集 一次获取所有数据。上例设置滚动5次,在实际采集过程中,可以根据需要设置滚动次数。
2、这类网页常用于数据实时性较高的新闻网站,在优采云中可以使用云端采集,设置定时启动,少量次采集最新数据。
3、有时候网页速度很快,像【加载中】这样的提示不明显。【是否有新数据】和【观察滚动条反弹次数】是比较好用的判断标准,请关注网页。
4. [向下滚动一屏] 运行采集任务时,一屏与窗口显示区域相关。如下图,左边的滚*敏*感*词*面>右边的滚*敏*感*词*面。