采集规则 采集 data-src(一种涉及数据采集共享技术领域,具体地说是一种技术的实现方法)

优采云 发布时间: 2022-01-13 06:06

  采集规则 采集 data-src(一种涉及数据采集共享技术领域,具体地说是一种技术的实现方法)

  本发明涉及数据采集共享技术领域,具体涉及一种政务数据采集流程的实现方法。

  背景技术:

  在信息系统建设过程中,建立统一的数据共享平台,实现各部门之间数据的统一共享和流通成为趋势。然而,出于数据安全和数据质量的考虑,政府部门共享数据的决心和力度往往受到阻碍。

  技术实施要素:

  本发明的技术任务是解决现有技术的不足,有效保障政务数据共享过程中的安全,消除数据提供部门对数据安全和数据用户对数据质量的担忧,促进政府数据共享和共享。政务数据的开放,并提供一种实现政务数据处理的方法采集。

  本发明解决其技术问题所采用的技术方案是:

  一种实现政务数据处理采集的方法,包括:

  定义目录信息;

  搭建数据交换采集系统;

  定义质量规则,验证数据交换系统采集的数据,出具质量检验报告;

  建立数据质量评估模型,对经过验证的数据进行评估评估,出具数据质量绩效报告;

  根据目录信息和质量规则定义脱敏规则;

  进行数据库对接和服务对接。

  涉及的定义目录信息的具体内容包括:

  根据政府部门的职能,定义相应的目录信息;

  属于同一政府部门的目录信息具有不同的标识信息;

  属于不同政府部门的目录信息具有唯一的标识信息。

  进一步地,每条目录信息包括至少一个元数据成分。

  构建数据交换采集系统的操作包括:

  根据定义的目录信息梳理现有政府数据交换系统或etl工具,采集将现有政府数据交换系统或etl工具的数据增量或全量,合并采集后的数据@> 数据存储在数据交换采集 系统中。

  定义质量规则所涉及的操作包括:

  根据至少一条目录信息中收录的元数据定义相应的检查规则;

  将巡查规则与同一政府部门的剩余目录信息进行绑定,对巡查规则对应的元数据进行校验;

  将合格的元数据发送给评估模型,记录不合格的元数据,并根据记录的结果出具质量检验报告。

  涉及的检查规则包括数据完整性规则、数据唯一性规则、数据准确性规则、数据一致性规则和数据规范化规则。

  所涉及的评价与评价模型按月、季、年的持续时间进行数据评价与评价,包括:

  评估评估模块1,用于评估验证数据所属的目录信息;

  评估评估模块2,用于评估通过验证的数据是否符合其所属目录信息的质量规则;

  评估评估模块3用于评估通过验证的数据的更新速度是否及时。

  所涉及的已定义脱敏规则包括:

  根据质量规则,定义目录信息收录的元数据中不同字段的脱敏规则;

  目录信息中用于唯一标识身份信息的字段的绑定规则;

  根据脱敏规则,对目录信息中收录的元数据进行脱敏,脱敏结果记录在脱敏数据库中。

  涉及的脱敏规则包括加密/解密、屏蔽、替换、散列、排序和置换。

  所涉及的数据库对接是借助etl工具将脱敏数据库中的数据直接交换到数据交换采集系统;涉及的服务对接是将数据交换采集系统的数据直接发布为api服务。该api完成了各个政府部门与数据交换采集系统之间的数据连接。

  与现有技术相比,本发明政务数据采集流程的实施方法产生的有益效果是:

  本发明的实施方法通过定义目录信息,构建数据交换采集系统,通过定义质量规则,构建数据的评价评估模型,完成数据采集阶段的安全保护。质量,依托目录信息和质量规则,分三步定义脱敏规则,完成数据安全保护和数据质量评估,消除数据提供者的顾虑,从而实现更广泛的数据共享,对政府信息化建设。意义。

  图纸说明

  附图1为本发明的方法流程图;

  附图2为本发明中步骤s30的流程图;

  附图3为本发明评价评估模型的结构框图;

  如图。图4为本发明步骤s50的流程图。

  图中的每个参考数字表示:

  1、评估和评估模块一,2、评估评估模块二,3、评估评估模块三。

  详细说明

  下面结合附图1-4,对本发明政务数据采集进程的实现方法进行详细说明。

  如图所示。如图1所示,本发明提供了一种政务数据采集流程的实现方法,其结构包括:

  s10:定义目录信息;

  s20:搭建数据交换采集系统;

  s30:定义质量规则,验证数据交换系统采集的数据,出具质检报告;

  s40:建立数据质量评估模型,对通过验证的数据进行评估评估,出具数据质量绩效报告;

  s50:根据目录信息和质量规则定义脱敏规则;

  s60:进行数据库连接和服务连接。

  本实施例中,步骤s10中定义目录信息的具体内容包括:

  根据政府部门的职能,定义相应的目录信息;

  属于同一政府部门的目录信息具有不同的标识信息;

  属于不同政府部门的目录信息具有唯一的标识信息。

  需要说明的是,在步骤s10中,每条目录信息包括至少一个元数据成分。以政府*敏*感*词*部门为例,*敏*感*词*局居民的*敏*感*词*信息包括姓名、性别、民族、*敏*感*词*号、出生日期、家庭住址等多个元数据。多个元数据形成一个完整的信息,我们称之为目录信息,也可以具体定义为*敏*感*词*局目录信息。当然我们也可以根据其他政府部门定义其他目录信息,比如医疗、交通、工商等,如果描述为个人,应该是通过*敏*感*词*信息采集与所有政府部门相关的数据。

  在本实施例中,步骤s20中构建数据交换采集系统的操作具体包括:

  根据定义的目录信息梳理现有政府数据交换系统或etl工具,采集将现有政府数据交换系统或etl工具的数据增量或全量,合并采集后的数据@> 数据存储在数据交换采集 系统中。增量采集主要是根据数据库中表结构的时间戳来实现增量数据采集;full 采集 是每次 采集 的一次性删除和插入。

  在本实施例中,参考图1。如图2所示,步骤s30定义质量规则的操作过程包括:

  s31:根据至少一个目录信息中收录的元数据定义相应的检查规则,检查规则包括数据完整性规则、数据唯一性规则、数据准确性规则、数据一致性规则和数据规范性规则;

  s32:将巡查规则与同一政府部门的其他目录信息绑定,对巡查规则对应的元数据进行校验;

  s33:将合格的元数据发送给评价模型,记录不合格的元数据,并根据记录的结果出具质检报告。

  步骤s30以居民*敏*感*词*信息为例定义质量规则,首先需要定义*敏*感*词*号码的数据完整性规则,定义*敏*感*词*号码15位和18位长度的检查规则。*敏*感*词*号码借助正则表达式([0-9] {18}|[0-9]{17}x|[0-9]{15});然后,将上述*敏*感*词*号码的完整性规则绑定到同一个政府部门目录信息中的*敏*感*词*信息元素,如果检验合格,即信息采集符合质量规则,则将被发送到评估模型;如果检查失败,则记录元数据和元数据所属的元数据目录信息,检查完成后,

  需要补充的是,检查规则除了使用正则表达式外,还可以用js、python等脚本语言编写。

  在本实施例中,参考图1。3、步骤s40中的评估评估模型,根据月、季、年的持续时间进行数据评估评估,包括:

  评估评估模块 1 1 用于评估验证数据所属的目录信息;

  评估评估模块22,用于评估通过验证的数据是否符合其所属目录信息的质量规则;

  评估评估模块3用于评估通过验证的数据的更新速度是否及时。

  在本实施例中,参考图1。如图4所示,步骤s50的定义脱敏规则包括:

  s51:根据质量规则定义目录信息收录的元数据中不同字段的脱敏规则;

  s52:目录信息中用于唯一标识身份信息的字段的绑定规则;

  s53、根据脱敏规则,对目录信息中收录的元数据进行脱敏,并将脱敏结果记录在脱敏数据库中。

  涉及的脱敏规则包括加密/解密、屏蔽、替换、散列、排序和置换。

  以*敏*感*词*号码为例:由于*敏*感*词*号码属于个人隐私,*敏*感*词*号码的泄露很容易威胁到他人的信息安全。因此,在公开一些数据时,*敏*感*词*号码的脱敏就显得尤为重要。实现*敏*感*词*号码脱敏的基本步骤是: 1. 指定*敏*感*词*号码脱敏规则,例如用*代替出生日期。这里我们可以使用python脚本分别为15位和18位*敏*感*词*号编写规则。;2.目录信息中ID号字段的绑定规则;3.脱敏,用程序将数据库中的数据单独去除,一一脱敏,最后在脱敏中记录结果数据库。

  在本实施例中,步骤s60中的数据库对接是通过etl工具将脱敏数据库中的数据直接交换到数据交换采集系统中;所涉及的服务对接是数据交换采集系统的数据交换,直接作为api服务发布,各政府部门与数据交换采集系统之间的数据连接是通过api。

  上述具体实施例仅为本发明的具体情况,本发明的专利保护范围包括但不限于上述具体实施例,任何符合政府数据实施方法的权利要求< @采集本发明的方法及本技术领域的普通技术人员所作的任何适当的改动或替换,均应落入本发明的专利保护范围。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线