一种制作在线数据采集系统的方法
优采云 发布时间: 2020-08-07 01:07
本申请涉及计算机领域,尤其涉及在线数据采集系统.
背景技术:
数据采集是指以完全或增量采集方式将数据从源数据库复制到目标数据库的过程.
目前,大多数传统数据采集都是基于本地数据的. 随着Internet的发展,在线数据库的数量正在增加. 与本地数据相比,在线数据具有跨区域,跨域的特点. 对于数据采集,目标地址也处于联机状态. 因此,目标地址是灵活且可变的.
因此,基于在线数据的上述特征,如何实现在线数据采集已成为亟待解决的问题.
技术实现要素:
本申请提供了一种基于支持向量机的分类方法和装置,旨在解决如何避免支持向量机的尺寸灾难,从而提高分类的准确性.
为了达到上述目的,本申请提供了以下技术解决方案:
在线数据采集系统,包括:
可视任务编辑器用于显示图形编辑界面,并根据用户在图形编辑界面上的操作生成数据采集任务. 图形编辑界面包括图形元素库,并且图形元素库包括第一类型的图形元素和第二类型的图形元素,第一类型的图形元素可以配置有不同的源数据库和/或目标数据库,以及第二类图形元素分别对应于数据采集的子链接;
分布式数据采集引擎用于根据数据采集任务执行数据采集过程.
可视任务编辑器还专门包括:
显示单元用于向用户显示图形编辑界面. 图像编辑界面包括图形元素库,格式编辑选项和任务管理选项. 其中,图形元素库包括第一类型的图形元素和第二两种图形元素,其中第一类型的图形元素包括输入和输出图形元素,第二类型的图形元素包括统计图形元素,脚本图形元素,计算图形元素,并且格式编辑选项包括编辑界面上图形格式控制选项中的图形元素,任务管理选项包括用于管理数据采集任务的选项;
任务生成单元,用于响应用户在图形编辑界面上的操作,生成数据采集任务;
发送单元用于发送数据采集任务.
(可选)分布式数据采集引擎包括:
外部API接口,用于从外部提供采集任务执行程序的执行,启动,停止,环境配置和资源注册功能,并接收可视任务编辑器发送的数据采集任务;
引擎核心用于执行数据采集任务;
引擎扩展用于为引擎核心提供数据源,数据对象和相应的业务功能实现.
可选地,引擎核心具体包括:
数据库扩展接口,用于标识不同数据库的驱动程序;
采集任务执行程序,用于将数据从源数据库复制到目标数据库;
服务器协同管理单元,用于在使用多个服务器时对多个服务器进行协同管理;
集合扩展接口,用于提供数据采集功能的扩展;
采集链接消息管理单元用于控制和管理在数据采集过程中每个链接中看到的消息的传输.
(可选)还包括:
可视任务状态监视模块用于监视数据采集过程.
可视任务状态监视模块可选地包括:
状态数据显示单元,用于显示数据采集任务的实时运行状态;
故障定位单元,用于当数据采集任务的执行过程异常时,以图形方式显示故障链接,并通过日志显示导致故障的数据;
性能日志分析单元用于通过图形显示的方式显示执行数据采集任务时每个链接所消耗的处理时间.
(可选)还包括:
公共资源管理模块用于为数据采集过程提供权限项目管理和资源重用控制.
可选地,公共资源管理模块具体包括:
数据库连接管理单元用于数据采集任务的源数据库和目标数据库的类型选择和资源配置;
任务管理单元,用于为数据采集任务提供共享服务;
授权控制单元用于为用户分配访问权限,以避免在多个用户使用时发生修改冲突.
可选地,公共资源管理模块还包括:
当需要多个通道来处理数据采集任务时,数据通道管理单元用于配置数据通道;
当数据采集任务需要多个服务器协作时,集群管理单元用于提供服务器配置功能.
此应用程序中描述的在线数据采集系统包括可视任务编辑器和分布式数据采集引擎. 可视任务编辑器用于显示图形编辑界面并基于用户对图形编辑界面的操作来生成数据. 采集任务,分布式数据采集引擎用于根据数据采集任务执行数据采集过程,因为可以根据在图形编辑界面上使用的操作来生成数据采集任务,该图形编辑界面包括图形元素库,该图形元素库包括第一类型的图形元素和第二类型的图形元素,第一类型图形元素的标识可以配置有不同的源数据库和/或目标数据库,并且第二类型的图形元素分别对应于数据采集. 可以看出,本实施例所述的系统使用户能够直观,灵活地创建数据采集任务. 鉴于在线数据的特性,用户还可以通过对图形元素进行操作来灵活地创建数据采集任务.
图纸说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,以下将简要介绍实施例或现有技术的描述中所需要的附图. 显然,在以下描述中,附图仅是本申请的一些实施例. 对于本领域普通技术人员而言,无需进行创造性劳动,即可基于这些附图获得其他附图.
图1是本申请实施例公开的在线数据采集系统图的结构*敏*感*词*;
图2是本申请实施例公开的视觉任务编辑器的结构*敏*感*词*;
图3是本申请实施例公开的设计界面中的行至列,表输入,排序和表输出图形元素的拖动*敏*感*词*;
图4是本申请实施例公开的表输入图形元素的页面设置*敏*感*词*;
图5是本申请实施例公开的排序基元的页面设置*敏*感*词*;
图6是本申请实施例公开的行至列图形元素的页面设置的*敏*感*词*;
图7是本申请实施例公开的表输出图形元素的页面设置*敏*感*词*;
图8是本申请实施例公开的另一种在线数据采集系统的结构*敏*感*词*;
图9是本申请实施例公开的分布式数据采集引擎的结构*敏*感*词*;
图10是本申请实施例公开的视觉任务状态监控模块的结构*敏*感*词*;
图. 图11是本申请实施例公开的公共资源管理模块的结构*敏*感*词*.
具体的实现方法
本申请实施例提供了一种在线数据采集系统,可用于采集在线数据,其目的是适应在线数据的特点.
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚,完整地描述. 显然,所描述的实施例仅是本申请实施例的一部分,而不是全部. 例. 基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围.
本申请实施例公开的在线数据采集系统,如图1所示,包括:
可视任务编辑器101和分布式数据获取引擎102.
其中,视觉任务编辑器101用于显示图形编辑界面,并根据用户在图形编辑界面上的操作生成数据采集任务.
具体地,图形编辑界面包括图形元素库,该图形元素库包括第一类型的图形元素和第二类型的图形元素,并且第一类型的图形元素可以配置有不同的源数据库和/或目标数据库中,第二种图形元素分别对应于数据采集的子链接.
分布式数据采集引擎102用于根据数据采集任务执行数据采集过程.
如图如图2所示,可视任务编辑器可以实现基于Flash技术的图形功能,具体包括: 显示单元201,任务生成单元202和发送单元203.
具体地,显示单元201用于向用户显示图形编辑界面,该图像编辑界面包括图形元素库,格式编辑选项和图形元素管理选项;
其中,图形元素库包括第一类型的图形元素和第二类型的图形元素,其中第一类型的图形元素包括输入和输出图形元素,第二类型的图形元素包括统计图形元素,脚本图形原语和计算原语. 各种原语对应于数据采集,数据导入,数据质量验证,数据处理和数据导出的四个阶段. 另外,数据采集中常见的增量采集和错误采集需要提供针对性的解决方案.
格式编辑选项包括图形编辑界面上图形元素的格式控制选项. 例如,格式控制选项可以包括图形元素的外观类型,例如左右对齐,网格线对齐,左右对齐,放大和缩小. 设置选项.
任务管理选项包括用于管理任务的选项,例如现有任务的显示,编辑后的任务验证以及任务的保存和分析.
任务生成单元202,用于响应用户在图形编辑界面上的操作,生成数据采集任务;
具体来说,用户可以在图形界面上拖放图形元素,排列,选择和连接多个图形元素.
发送单元203,用于发送数据采集任务.
例如,可以通过使用本实施例中所述的系统来实现以下数据采集过程:
预采集准备: 执行bamtest.sql数据库脚本,数据库中已经存在bamtest数据库,并根据“测试数据”准备了相关表.
采集过程:
1. 创建一个新的数据采集任务“ Test”;
2. 在与“测试”任务相对应的采集任务列表中创建一个新的“测试任务”,选择“测试任务”任务,然后单击“设计任务模型”;
3. 在设计界面中将行拖入列,表输入,排序和表输出原语,如图3所示,并根据执行逻辑连接上述原语;
4. 单击打开表以输入图元,页面设置如图4所示. 单击打开排序原语,页面设置如图5所示. 单击打开行到列原语,页面设置如图6所示;单击打开表以输出基元,页面设置如图7所示;
5. 完成图形元素配置后,单击“保存”按钮,然后将建立数据采集任务.
性能显示:
1)Bam_test_hzl原创表中的数据如表1所示.
表1
2)表2中显示了在对基元进行排序后从Bam_test_hzl的原创表转换而来的数据:
表2
3)执行后保存结果,表3中显示了bam_output_hzl表中的数据:
表3
此步骤的主要功能: 将数据分别显示在“中文”,“数学”和“英语”字段中,并整合到“主题”字段中,并生成单独的“得分”字段以存储数据,然后以行显示的数据将以列显示.
可以看出,在本实施例所述的在线数据采集系统中,可视任务编辑器可以为用户提供在线可视采集任务的编辑,从而可以根据在线数据状态的变化灵活地设计数据采集任务,以满足在线数据要求. 采集需求.
本申请实施例公开的另一种在线数据采集系统,如图8所示,
可视任务编辑器,分布式数据采集引擎,可视任务状态监视模块和公共资源管理模块.
其中,可视任务编辑器的功能和具体结构如上述实施例所述,在此不再赘述.
具体而言,如图2所示,在基体2上设置有多个. 参照图9,分布式数据采集引擎可以具体包括: 外部API接口,引擎核心和引擎扩展.
外部API接口用于从外部提供采集任务执行程序的执行,启动,停止,环境配置和资源注册功能,并接收可视任务编辑器发送的数据采集任务.
引擎核心用于执行数据采集任务. 引擎核心可以具体包括: 数据库扩展接口,用于标识不同数据库的驱动程序;采集任务执行器,用于将数据从源数据库复制到目标数据库;当使用多个服务器时,服务器协同管理单元用于对多个服务器进行协同管理. 采集扩展接口用于提供数据采集功能的扩展. 采集链接消息管理单元用于控制数据. 对采集过程中每个链接中看到的消息的传输进行控制和管理.
引擎扩展用于为引擎核心提供数据源,数据对象和相应的业务功能实现.
如图10所示,可视任务状态监控模块包括: 状态数据显示单元,用于显示数据采集任务的实时运行状态;故障定位单元,在发生数据采集任务的执行过程时使用. 出现异常时,以图形方式显示故障链接,并将导致故障的数据显示在日志中;性能日志分析单元,用于以图形显示方式显示时间,执行数据采集任务时每个链接消耗的处理. 使用显示图形显示整个数据采集过程中每个链接消耗的处理时间,可使运维人员快速定位整个处理过程的性能瓶颈,并采取相应的措施完成任务操作的性能调整
如图11所示,公共资源管理模块具体包括: 数据库连接管理单元,用于选择数据采集任务的源数据库和目标数据库的类型和资源配置;任务管理单元,用于为采集任务提供数据共享服务;权限控制单元,用于为用户分配使用权限,以避免在多个人使用时发生修改冲突.
本实施例中描述的在线数据采集系统结合了最新的在线显示技术以提供可视任务编辑器. 一方面,可视任务编辑器可以与采集的数据体系结构无缝集成,另一方面,它也可以作为独立的在线编辑器独立部署和使用,从而提高了灵活性. 此外,它还集成了任务编辑,数据采集以及运维管理功能,方便用户使用.
如果在本申请的实施例的方法中描述的功能以软件功能单元的形式实现并且被出售或用作独立产品,则可以将它们存储在计算设备可读的存储介质中. 基于该理解,可以以软件产品的形式来体现本申请的实施例的对现有技术有贡献的部分或技术解决方案的一部分,该软件产品被存储在存储介质中并且包括用于进行制造的若干指令. 计算设备(可以是个人计算机,服务器,移动计算设备或网络设备等)执行在本申请的每个实施例中描述的方法的全部或部分步骤. 前述存储介质包括: U盘,移动硬盘,只读存储器(ROM,只读存储器),随机存取存储器(RAM,随机存取存储器),磁盘或光盘以及其他可以存储程序代码的介质.
本说明书中的实施例以渐进方式进行描述. 每个实施例着重于与其他实施例的不同之处,并且各个实施例之间的相同或相似部分可以互相参考.
所公开的实施例的以上描述使得本领域技术人员能够实施或使用该申请. 对这些实施例的各种修改对于本领域技术人员将是显而易见的,并且在不脱离本申请的精神或范围的情况下,可以在其他实施例中实现本文档中定义的一般原理. 因此,本申请将不限于本文中所示的实施例,而应符合与本文中公开的原理和新颖特征相一致的最广范围.