优采云采集工具 v2.5.0.0 免费版
优采云 发布时间: 2020-08-24 18:54优采云采集工具 v2.5.0.0 免费版
优采云采集器是一款简单易用的数据采集工具,通过这款软件用户可以轻松在各大搜索平台中抓取数据;软件具有直观的操作界面,只须要使用滑鼠单击几下就可以进行数据采集,软件对于使用者要求并不高,因为这款软件不需要使用代码控制,也不需要用户编撰采集代码,并且软件还提供详尽的操作方法,让任何用户都可以耗费少量的时间把握这款工具;软件采用的是自家研制的智能化数据采集算法,相比较通常的算法,这种算法让软件的辨识准确率达到了百分之95左右,可以更深层次的帮助挖掘多级页面。
软件功能
自动导入数据
数据可以手动导入和发布。它支持多种格式,例如TXT,CSV,Excel,access,mysql,SQL server,SQLite和API。
高速采集
内置高效的浏览器引擎,HTTP引擎,JSON引擎,通过十分优化的内核,多线程集合,速度很快。
批处理文件下载
可以手动下载图片,PDF,docx等文件,并支持自定义保存目录,自定义文件名。
增量更新
通过定期操作和增量更新,可以完全自动化搜集任务,并可以实时监视目标网站以实现同步更新。
软件特色
1、简单易学,通过可视界面,鼠标单击即可搜集数据,向导模式,用户不需要任何技术根据,输入URL,一键即可提取数据,编码小白福音。
2、通过自主研制的智能辨识算法,可以手动辨识列表数据和辨识分页,准确率达到95%。它可以深入搜集多级页面并快速准确地获取数据。
3、新一代智能爬虫软件简单易学,通过智能算法和可视界面,它收录大量模板。只需设置并单击滑鼠即可搜集数据。
4、通用灵活。可以搜集99%的网站,可以捕获静态网页,动态页面,单页应用程序和联通应用程序,并可以搜集获取和发布信息。
5、内置大量网站采集模板,涵盖多个行业,单击该模板,即可加载数据,仅需简单配置,即可快速,准确地获取数据,以满足各类搜集需求。
使用方式
软件界面
下面介绍了优采云(Parthenocissus tricuspidata)采集器软件的主要界面功能。
打开软件,主界面中收录三个区域:
任务列表收录所有组和已创建的任务,可在此处管理任务
工具栏,一些常见的任务操作按键,选项,登录。
起始页*敏*感*词*有简单的搜集条目和自定义搜集条目,以及文档和顾客服务链接
任务列表的右键菜单
您可以通过右键单击菜单对任务执行一系列操作,例如开始搜集,编辑,删除,复制,导出任务规则,导出和查看搜集的数据。
运行状态窗口
此处,正在运行和已完成的任务运行状态包括任务名称,状态,下一次运行时间,上次运行时间和最后搜集的数据量。
任务编辑器-自定义模式
任务编辑器用于创建和编辑任务规则,主要包括三个部份:
第一步是输入起始网址
第二步是获取数据的详尽配置
第三步:设置(包括浏览器和任务的参数设置)
简单搜集
优采云收割机外置有数百种简单的搜集规则。用户只须要使用一些简单的参数(例如关键字,网站地址)即可开始搜集。
采集市场和政府维护的搜集规则分为几种类型。在创建用户定义的任务之前,您可以在此处搜索以查看是否有现成的规则。
单击以使用简单规则编辑器。您可以设置一些简单的数据,例如关键字和网站地址。完成后,您可以直接单击以开始搜集。
创建第一个采集任务
首先,打开优采云(Parthenocissus)收割机,然后在主界面中单击新任务按键
选择起始地址
当您要从网站采集数据时,首先须要找到一个地址以显示数据列表。此步骤至关重要。起始URL决定您搜集的数据量和类型。
以公众意见为例,我们希望捕获当前城市的乳品业务信息,包括商店名称,地址,等级等。
通过浏览网站,我们可以找到所有乳品企业的列表地址:
然后在优采云收割机V2中创建新建任务 -> 第一步 -> 输入网页地址
然后单击下一步。
获取数据
进入第二步后,优采云收获机将智能地剖析网页并从中提取列表数据。如下图所示:
目前,我们早已剖析了数据以进行整理和更改,例如删掉无用的数组。
单击列的下拉按键,然后选择“删除”字段。
当然,还有其他操作,例如名称更改,数据处理等。我们将在以下文档中进行介绍。
整理出修改后的数组后,我们将搜集并处理分页。
选择分页设置>自动辨识分页,程序将手动找到下一个页面元素。
完成后,单击“下一步”。
设定
这包括浏览器的配置,例如禁用图象,禁用JS,禁用Flash,拦截广告和其他操作。您可以使用这种配置来推动浏览器的加载速率。
计划任务的配置,通过该任务可以计划任务手动运行。
单击完成以保存任务。
完成,运行任务
创建任务后,我们选择新创建的任务,然后单击主界面工具栏上的开始按键。
任务运行窗口,任务运行日志,记录详尽的搜集日志信息。
采集的数据窗口实时显示搜集的数据