网页采集器的自动识别算法(7.增量更新通过定时运行和实时监测目标网站,实现同步更新(组图))

优采云 发布时间: 2021-11-02 21:13

  网页采集器的自动识别算法(7.增量更新通过定时运行和实时监测目标网站,实现同步更新(组图))

  7.增量更新

  通过定时运行和增量更新,实现采集任务全自动化,实时监控目标网站,实现同步更新。

  8.批量文件下载

  可自动下载图片、PDF、DOCX等各种文件,支持自定义保存目录和自定义文件名。

  使用说明

  创建第一个 采集 任务

  首先打开优采云采集器,在主界面点击New Task按钮

  第一步,选择起始网址

  当你想要采集一个网站数据时,首先需要找到一个地址来显示数据列表。这一步非常重要。起始 URL 决定了 采集 数据的数量和类型。

  以大众点评为例,我们要抓取当前城市的餐饮商家信息,包括店铺名称、地址、评分等。

  通过浏览网站,我们找到了所有美食商家的地址:

  然后在优采云采集器V2中新建任务->第一步->输入网址

  

  然后单击下一步。

  第二步,抓取数据

  进入第二步后,优采云采集器会智能分析网页并从中提取列表数据。如下所示:

  

  这时候我们对分析的数据进行整理和修改,比如删除无用的字段。

  单击列的下拉按钮并选择删除字段。

  

  当然还有其他的操作,比如修改名字、数据处理等等。我们将在以下文档中介绍这些。

  整理好修改后的字段后,让我们采集处理分页。

  选择分页设置->自动识别分页符,程序会自动定位下一页元素。

  

  完成后,单击下一步。

  第三步,设置

  这包括浏览器的配置,比如禁用图片、禁用JS、禁用Flash、屏蔽广告等。这些配置可用于提高浏览器的加载速度。

  定时任务的配置,通过定时任务,可以设置任务定时自动运行。

  

  单击完成以保存任务。

  完成,运行任务

  任务创建完成后,我们选择新创建的任务,点击主界面工具栏上的开始按钮。

  任务操作窗口,任务操作日志,记录详细的采集日志信息。

  

  采集数据窗口,实时显示采集数据

  

  更新日志

  优化了数据导出窗口。

  文本框中添加了语法高亮和自动完成功能。

  组计划任务中的错误已得到纠正。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线