优采云采集器软件功能介绍及使用方法介绍!采集
优采云 发布时间: 2021-07-20 21:07优采云采集器软件功能介绍及使用方法介绍!采集
优采云采集器 由前谷歌技术团队打造。基于人工智能技术,可通过输入URL自动识别采集内容,可视化点击,一键采集web数据,全平台,Win/Mac/Linux均可,优采云采集器可以无限制使用,可以后台运行,速度实时显示,采集和导出都是免费的!
优采云采集器软件功能
1、智能识别数据,小白神器
智能模式:基于人工智能算法,只需输入网址即可智能识别列表数据、表格数据和分页按钮,无需配置任何采集规则,一键采集。
自动识别:列表、表格、链接、图片、价格等
2、Visualization 点击,轻松上手
流程图模式:只需根据软件提示点击页面进行操作,完全符合人们浏览网页的思维方式,简单几步即可生成复杂的采集规则,结合智能识别算法,任何网页上的数据都可以轻松采集。
可以模拟操作:输入文字、点击、移动鼠标、下拉框、滚动页面、等待加载、循环操作和判断条件等
3、支持多种数据导出方式
采集结果可以本地导出,支持TXT、EXCEL、CSV和HTML文件格式,也可以直接发布到数据库(MySQL、MongoDB、SQL Server、PostgreSQL)供您使用。
4、功能强大,提供企业级服务
优采云采集器提供了丰富的采集功能,无论是采集stability还是采集efficiency,都能满足个人、团队和企业采集的需求。
功能丰富:定时采集、自动导出、文件下载、加速引擎、分组启动导出、Webhook、RESTful API、SKU和大图智能识别等
5、cloud账号,方便快捷
创建优采云采集器账号并登录,你所有的采集任务设置都会自动加密保存到优采云的云服务器。无需担心采集任务丢失,任务运行和采集数据都在您的本地,非常安全。只有在本地登录客户端后才能查看。 优采云采集器 对账户没有终端绑定限制。切换终端时采集任务会同步更新,任务管理方便快捷。
6、全平台支持,无缝切换
同时采集软件支持Windows、Mac和Linux全操作系统。各平台版本完全一致,无缝切换。
使用教程
自定义采集百度搜索结果数据的方法
一、Create采集task
1、Start优采云采集器,进入主界面,选择Custom采集,点击Create Task按钮,创建“Custom采集Task”;
2、输入百度搜索的网址,包括三种方式。
手动输入:直接在输入框中输入网址。如果有多个网址,需要用换行符隔开。
单击从文件中读取:用户选择一个文件来存储 URL。文件中可以有多个URL地址,地址之间需要用换行符分隔。
批量添加方式:通过添加和调整地址参数生成多个常规地址。
二、Custom 采集process
1、点击创建后,会自动打开第一个网址,然后进入自定义设置页面。默认情况下,已经创建了开始、打开网页和结束的进程块。底部的模板区域用于拖放到画布上生成新的流程块;点击打开网页中的属性按钮修改打开的网址;
2、添加文本输入处理块:将底部模板区域中的输入文本块拖到打开的网页块的后面。当出现阴影区域时,松开鼠标,此时会自动连接,添加完成;
3、 生成一个完整的流程图:按照上面添加输入文本流程块的拖放流程添加一个新块;
关键步骤块设置介绍
定时等待用于等待之前打开的网页完成。
点击输入框的Xpath属性按钮,点击属性菜单中的图标选择网页上的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。
用于设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页上的百度一键。
用于设置加载下一个列表页面的周期。在循环块内的循环条件块中设置详细条件。单击此处的操作按钮选择单个元素,然后在属性菜单中单击该元素的xpath 属性按钮,然后在网页中单击下一页按钮,如上。循环次数属性按钮可以默认为0,即下一页没有点击次数限制。
用于设置循环提取列表页面中的数据。在循环块内部的循环条件块中设置详细条件,点击这里的操作按钮,选择未固定元素列表,然后在属性菜单中点击该元素的xpath属性按钮,然后在网页中点击两次即可提取第一个块和第二个元素。循环次数属性按钮可以默认为0,即不限制列表中采集的字段数。
用于执行点击下一页按钮、点击元素xpath属性按钮、选择当前循环中元素的xpath选项的操作。
同样用于设置网页加载的等待时间。
用于在列表页面设置要提取的字段规则,点击属性按钮中的循环中使用元素按钮,选择循环中使用元素的选项。单击元素模板属性按钮在字段表中添加和减去字段以添加和删除字段。添加字段使用点击操作,即点击加号,然后将鼠标移动到网页元素上点击选择。
4、点击开始采集开始采集。
三、数据采集并导出
1、采集 任务正在运行;
2、采集完成后,选择“导出数据”将所有数据导出到本地文件;
3、选择“导出方式”导出采集good数据,这里可以选择excel作为导出格式;
4、采集 数据导出后,如下图所示。