优采云采集平台通过设置“定时采集”+“重复数据”

优采云 发布时间: 2021-08-26 18:06

  优采云采集平台通过设置“定时采集”+“重复数据”

  优采云采集平台可以通过设置“timing采集”+“重复数据跳过”+“自动释放”功能来实现数据的同步更新,即检查采集源网站是否有内容定期更新,采集并发布新内容。

  定时采集功能详情:定时采集配置;

  自动发布功能详情:采集自动发布配置;

  基本流程:1.采集所有已有数据

  首先设置采集拥有的所有列表页面中的数据; (以下为示例,假设一共100页)

  

  

  

  2.采集更新数据

  现有数据采集全部完成后,现在只需要定期更新内容采集,用户通常会在“Start | Timing采集”设置重复数据跳过来实现这一点。

  以上操作是可行的,但是有个技巧可以大大提高同步update采集的效率:

  为了判断数据是否重复,系统会遍历配置采集的列表页中的文章是否与采集已经存储的文章具有相同的标题。如果数据量很大,会影响采集的速度。

  用户可以观察采集源网站的内容更新频率和数量,估计新的内容会显示在列表页的前几页,在“@”中只设置采集采集Start URL" 对于前几页的内容,减少系统遍历的页数,提高采集效率。

  下例中网站new内容每12小时更新一次,一般显示在列表页的前两页,可以只配置列表页前两页的采集文章列表。

  (如果没有这一步,按照原来的设置,系统会遍历100页列表页判断是否有重复数据,现在只需要遍历2页列表页)

  

  

  

  

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线