最新采集器(增量更新通过定时运行和实时监测目标网站,实现自动化运行)
优采云 发布时间: 2021-11-09 13:04最新采集器(增量更新通过定时运行和实时监测目标网站,实现自动化运行)
增量更新
通过定时运行和增量更新,实现采集任务的全自动化,实时监控目标网站,实现同步更新。
批量文件下载
可自动下载图片、PDF、DOCX等各种文件,支持自定义保存目录和自定义文件名。
安装步骤
单击以下载安装程序。
下载完成后,直接运行安装程序PashanhuV2Setup.exe。
然后一直点击下一步直到完成。
安装完成后可以看到优采云采集器V2的主界面
优采云采集器使用方法
首先打开优采云采集器,在主界面点击New Task按钮
第一步,选择起始网址
当你想要采集一个网站数据时,首先需要找到一个地址来显示数据列表。这一步非常重要。起始 URL 决定了 采集 数据的数量和类型。
以大众点评为例,我们要抓取当前城市的餐饮商家信息,包括店铺名称、地址、评分等。
通过浏览网站,我们找到了所有美食商家的列表地址
然后在优采云采集器V2中新建任务->第一步->输入网址
然后单击下一步。
第二步,抓取数据
进入第二步后,优采云采集器会智能分析网页并从中提取列表数据。如下所示:
这时候我们对分析的数据进行整理和修改,比如删除无用的字段。
单击列的下拉按钮并选择删除字段。
当然还有其他的操作,比如修改名字、数据处理等等。我们将在以下文档中介绍这些。
整理好修改后的字段后,让我们采集处理分页。
选择分页设置->自动识别分页符,程序会自动定位下一页元素。
完成后,单击下一步。
第三步,设置
这包括浏览器的配置,比如禁用图片、禁用JS、禁用Flash、屏蔽广告等。这些配置可以用来提高浏览器的加载速度。
定时任务的配置,通过定时任务,可以设置任务定时自动运行。
单击完成以保存任务。
完成,运行任务
任务创建完成后,我们选择新创建的任务,点击主界面工具栏上的开始按钮。
任务操作窗口,任务操作日志,记录详细的采集日志信息。
采集数据窗口,实时显示采集数据
优采云采集器如何采集图片
单击添加字段。
用鼠标点击网页中的图片,程序会自动获取图片地址。(已经有字段了,选择重新选择元素,然后点击图片)
选择需要下载的字段,点击菜单按钮,选择文件下载菜单。
设置图片的文件名和保存路径。
结束。