基于人工智能算法的智能采集系统设计方案设计(一)
优采云 发布时间: 2021-07-17 21:32基于人工智能算法的智能采集系统设计方案设计(一)
一、平台概览
互联网商业数据采集平台是基于智能算法开发的智能采集系统。系统只需输入网址即可智能识别采集对象,无需配置任何采集规则。该系统不仅可以对采集的数据进行自动化处理,还可以对采集过程中的数据进行清洗,可以快速准确地获取海量网络数据。
二、主要参数
1.采集器homepage 输入框:只能输入一个网址。在这里输入网址后,软件会直接跳转到任务编辑界面,用户可以在任务编辑界面继续操作。
2.我的问题
(1)导入任务:可以选择添加需要导入的文件,在选择的组名下导入。
(2)创建任务:可以新建任务组;可以添加智能模式任务和流程图模式任务。
(3)查看所有任务:搜索查看所有任务信息,包括任务名称、任务id、创建时间、结束时间、采集结果、状态、操作;可以查看自动导出的任务列表信息包括组名称、任务名称、自动导出名称、状态、导出成功(项目)、导出失败(项目)、操作。
3.创建流程图模式:基于人工智能算法,输入网址自动识别网页内容和分页,无需配置采集规则,一键采集数据。
4.Create流程图模式:可以根据提示点击网页内容生成可视化流程操作,生成采集规则,可以模拟任何思维操作。
5.Task First Interface
(1)Task grouping: 可以将任务分组设置
(2)任务名称:可以通过三种方式设置任务名称:自定义输入、网页标题、任务组名称_编号
(3)URL导入:可以通过手工导入、文件导入、量产导入采集的URL链接。
(4)URL预览:可以预览查看添加的URL链接。
6.Page Type:在页面类型中,采集data通过设置列表类型和单页类型来设置。列表类型可设置为自动识别、手动点击列表、编辑列表XPath。
7.Paging setting:分页设置可以设置分页按钮、瀑布式分页、禁用分页。在分页按钮中可以选择设置自动识别分页,点击分页按钮,编辑分页XPath。
8.Settings采集Scope
(1)设置起始页:可以设置当前页或者自定义起始页数
(2)设置结束页:可以设置下一页或自定义结束页码
(3)设置跳过项:可以设置跳过每页前后的数据条数
(4)新条件:满足设定条件时停止采集;在新条件中可以添加组织关系、组关系、字段名称、条件、值等信息,完成新建分组、新建条件、删除条件等操作。
9.数据过滤:可以添加设置数据过滤的条件。在数据过滤中,您可以完成新建组、新建条件、删除条件等操作。
10.Clear all:可以清除所有选中准备采集的数据。
11.depth采集:可以设置页面链接的详情页数据采集设置
12.字段设置
(1)添加字段:可以根据数据抓取的需要添加字段
(2)可以修改字段名称、合并字段、页面选择、编辑字段XPath、删除字段等
(3)Set value 属性:可以为模块设置操作,如提取文本、提取内部HTML、提取外部HTML、提取链接地址、提取图片等媒体地址、提取输入框内容、下载按钮等.
(4)改为特殊字段:可以设置特殊字段包括采集时的时间、采集时的时间戳、当前网页的网址、网页的标题当前网页,以及当前网页的源代码。
13.Flowchart 组件
(1)打开网页:创建流程图任务时,会自动生成打开网页组件。该组件作为任务组件使用,不可拖拽删除,可编辑修改任务栏URL。
(2)Click:可点击元素可以设置为包括循环点击循环组件中的分页按钮,依次点击循环组件中列表中的元素,以及手动点击该元素;click方法可以设置为包括单机、双击;点击后是否打开新标签页等内容操作。
(3)Extract data:在提取数据时,可以设置停止条件、数据过滤、清除所有字段、深入采集、添加字段等
(4)Timed等待:可以设置等待组件的内容
(5)滚动页面:可以添加滚动页面方法,包括滚动到页面底部和滚动一屏高度;可以设置每次滚动后的等待时间。
(6)input text:在文本组件中,可以设置输入文本选择输入框,文本内容条件,组合文本的前几列,输入后按回车。
(7)移动鼠标:移动鼠标组件的作用是针对需要将内容移动到网页中的元素的情况,可以在组件中设置鼠标。
(8)Drop-down box:下拉框组件的作用是针对网页中的下拉框选项。可以在组件中设置选择下拉框和个别选项。
(9)Judgment:判断组件可以针对不同的条件进行判断,进行不同的操作。可以在判断组件中设置判断条件、判断使用的文本、判断范围等内容操作。
(10)Cycle:循环组件可以进行一些操作,在组件中可以设置循环方法和选择列表元素。
(11)Return:返回组件返回上一页。
(12)Copy:复制组件可以复制页面元素的内容。
(13)验证码:可以设置验证码输入框,选择验证码图片,选择验证码提交按钮,选择验证码错误提示,在验证中启用自动编码等操作代码组件。
(14)循环外:循环外组件通常与判断组件结合使用,即在条件满足与否的情况下提前结束循环。
14.Begin采集
(1)timing start:定时启动可以设置周期采集的间隔时间、单次运行时间、启动频率、启动日期、启动时间、停止时间。
(2)Intelligent Strategy:可以设置和添加智能切换和手动切换的条件。
(3)自动导出:对于自动导出的数据,可以新建任务或者删除自动导出。
(4)file下载:可以在采集下载文件,可以设置采集下载的文件类型、下载文件的存放路径、文件夹规则选择、文件名规则选择、模块操作例如文件。
(5)Acceleration Engine:可以根据引擎情况开启加速引擎。
(6)重复数据删除:选择或添加重复数据删除条件,设置其执行动作包括数据重复时跳过继续采集,数据重复时停止任务。
相关产品:消费者行为分析、消费者数据分析