网页采集器的自动识别算法(7.增量更新通过定时运行和实时监测目标网站,实现同步更新(组图))
优采云 发布时间: 2021-11-02 21:13网页采集器的自动识别算法(7.增量更新通过定时运行和实时监测目标网站,实现同步更新(组图))
7.增量更新
通过定时运行和增量更新,实现采集任务全自动化,实时监控目标网站,实现同步更新。
8.批量文件下载
可自动下载图片、PDF、DOCX等各种文件,支持自定义保存目录和自定义文件名。
使用说明
创建第一个 采集 任务
首先打开优采云采集器,在主界面点击New Task按钮
第一步,选择起始网址
当你想要采集一个网站数据时,首先需要找到一个地址来显示数据列表。这一步非常重要。起始 URL 决定了 采集 数据的数量和类型。
以大众点评为例,我们要抓取当前城市的餐饮商家信息,包括店铺名称、地址、评分等。
通过浏览网站,我们找到了所有美食商家的地址:
然后在优采云采集器V2中新建任务->第一步->输入网址
然后单击下一步。
第二步,抓取数据
进入第二步后,优采云采集器会智能分析网页并从中提取列表数据。如下所示:
这时候我们对分析的数据进行整理和修改,比如删除无用的字段。
单击列的下拉按钮并选择删除字段。
当然还有其他的操作,比如修改名字、数据处理等等。我们将在以下文档中介绍这些。
整理好修改后的字段后,让我们采集处理分页。
选择分页设置->自动识别分页符,程序会自动定位下一页元素。
完成后,单击下一步。
第三步,设置
这包括浏览器的配置,比如禁用图片、禁用JS、禁用Flash、屏蔽广告等。这些配置可用于提高浏览器的加载速度。
定时任务的配置,通过定时任务,可以设置任务定时自动运行。
单击完成以保存任务。
完成,运行任务
任务创建完成后,我们选择新创建的任务,点击主界面工具栏上的开始按钮。
任务操作窗口,任务操作日志,记录详细的采集日志信息。
采集数据窗口,实时显示采集数据
更新日志
优化了数据导出窗口。
文本框中添加了语法高亮和自动完成功能。
组计划任务中的错误已得到纠正。