如何配置手动采集、自动更新网站数据
优采云 发布时间: 2020-08-03 16:01优采云采集平台通过设置 “定时采集” + “重复数据跳过” + “自动发布” 功能可实现同步更新数据,即定时检查采集源网站是否有内容更新,采集并发布新内容。
定时采集功能详情:定时采集配置;
自动发布功能详情:采集后手动发布配置;
基本流程: 1. 采集已有的全部数据
先设置采集已有的全部列表页中的数据;(下面以 “大众养身-饮食” 模板为例,假设共100页)
2. 采集更新数据
待已有的全部数据采集完成后,现只需定时采集更新的内容,用户通常会在 “启动 | 定时采集“ 处设置重复数据跳过来实现。
上述操作可行,但有个方法可急剧增强同步更新采集效率:
判断是否重复数据,系统是遍历配置采集的列表页中的文章与已采集入库的文章中有无相同标题,如果数据量多会影响采集速度。
用户可通过观察采集源网站的内容更新频度和数目网站自动采集系统,估算新内容会显示在列表页的前几页,并在 “采集起始网址” 处设置只采集前几页的内容,减少系统遍历列表页页数来提升采集效率。
如下例网站新内容12小时更新一次,且通常显示在列表页的前两页,则可配置只采集前两页列表的文章。
(如果没有这一步网站自动采集系统,按原先的设置,系统要遍历100页列表页判定是否有重复数据,现只需遍历2页列表页)