最新采集器(增量更新通过定时运行和实时监测目标网站,实现自动化运行)

优采云 发布时间: 2021-11-09 13:04

  最新采集器(增量更新通过定时运行和实时监测目标网站,实现自动化运行)

  增量更新

  通过定时运行和增量更新,实现采集任务的全自动化,实时监控目标网站,实现同步更新。

  批量文件下载

  可自动下载图片、PDF、DOCX等各种文件,支持自定义保存目录和自定义文件名。

  安装步骤

  单击以下载安装程序。

  下载完成后,直接运行安装程序PashanhuV2Setup.exe。

  

  然后一直点击下一步直到完成。

  安装完成后可以看到优采云采集器V2的主界面

  优采云采集器使用方法

  首先打开优采云采集器,在主界面点击New Task按钮

  第一步,选择起始网址

  当你想要采集一个网站数据时,首先需要找到一个地址来显示数据列表。这一步非常重要。起始 URL 决定了 采集 数据的数量和类型。

  以大众点评为例,我们要抓取当前城市的餐饮商家信息,包括店铺名称、地址、评分等。

  通过浏览网站,我们找到了所有美食商家的列表地址

  然后在优采云采集器V2中新建任务->第一步->输入网址

  

  然后单击下一步。

  第二步,抓取数据

  进入第二步后,优采云采集器会智能分析网页并从中提取列表数据。如下所示:

  

  这时候我们对分析的数据进行整理和修改,比如删除无用的字段。

  单击列的下拉按钮并选择删除字段。

  

  当然还有其他的操作,比如修改名字、数据处理等等。我们将在以下文档中介绍这些。

  整理好修改后的字段后,让我们采集处理分页。

  选择分页设置->自动识别分页符,程序会自动定位下一页元素。

  

  完成后,单击下一步。

  第三步,设置

  这包括浏览器的配置,比如禁用图片、禁用JS、禁用Flash、屏蔽广告等。这些配置可以用来提高浏览器的加载速度。

  定时任务的配置,通过定时任务,可以设置任务定时自动运行。

  

  单击完成以保存任务。

  完成,运行任务

  任务创建完成后,我们选择新创建的任务,点击主界面工具栏上的开始按钮。

  任务操作窗口,任务操作日志,记录详细的采集日志信息。

  

  采集数据窗口,实时显示采集数据

  

  优采云采集器如何采集图片

  单击添加字段。

  用鼠标点击网页中的图片,程序会自动获取图片地址。(已经有字段了,选择重新选择元素,然后点击图片)

  

  选择需要下载的字段,点击菜单按钮,选择文件下载菜单。

  

  设置图片的文件名和保存路径。

  

  结束。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线