优采集平台( 一种实施例提供一种大数据平台的数据采集和处理方法及系统)

优采云发布时间: 2022-04-06 15:09

　　优采集平台(

一种实施例提供一种大数据平台的数据采集和处理方法及系统)

　　本发明涉及技术领域，具体涉及一种大数据平台的数据采集及处理方法和系统。

　　背景技术：

　　为了解决采集和多个数据源之间的处理，通常使用etl技术。传统的 etl 工具通常包括数据提取、数据转换和数据加载功能。但是在大数据存储中单条记录不能修改和删除的前提下，当有数据需要更新时，传统的etl工具只能使用全表更新方式，消耗大表的维护成本. 很大。

　　技术实施要素：

　　本发明提供一种大数据平台的数据采集及处理方法和系统，以解决上述问题。

　　为了解决上述问题，本发明实施例提供了一种大数据平台的数据采集及处理方法，包括以下步骤：

　　根据配置信息，通过数据交换工具读取不同数据源的原创表数据；

　　对读取的原创表数据进行处理，对数据添加日期字段和增删改字段生成历史表数据，同时存储在大数据平台的基础数据库中；

　　全量表数据增量更新时，将处理后的原表数据全部插入历史表，从历史表中提取最新数据，生成新的全量表。

　　作为一个实施例，通过从历史表中提取最新数据生成新的满量程包括以下步骤：

　　根据主键对处理后的原创表数据进行分组；

　　row_number窗口函数用于将处理后的原创表数据按照时间字段和每组的增删改字段进行降序排序，得到排序字段；

　　过滤排序字段为 1 的数据，生成新的满量程。

　　作为一个实施例，还包括以下步骤：

　　读取存储在基础库中的采集数据；

　　识别采集数据类别，调用采集数据对应的数据清洗规则；

　　根据数据清洗规则过滤采集数据。如果数据不符合规则，数据将被保存为异常数据。

　　作为一个实施例，还包括以下步骤：

　　提取的数据根据满量程输出的目的库进行处理和转换。

　　作为一个实施例，对提取的数据按照满量程输出的目的库进行数据处理和转换包括以下步骤：

　　读取过滤后的数据；

　　识别数据类别并调用相应的数据转换规则；

　　根据数据转换规则，在原创数据的基础上增加数据分析所需的字段或减少数据分析的无效字段。

　　本发明实施例还提供了一种大数据平台的数据采集及处理系统，包括：

　　采集单元用于根据配置信息通过数据交换工具读取不同数据源的原创表数据；

　　处理单元用于对读取的原创表数据进行处理，对数据添加日期字段和增删改字段生成历史表数据，并存储在大数据平台的基础数据库中；

　　增量更新单元用于在全尺度数据增量更新时，将处理后的原表数据全部插入历史表中，从历史表中提取最新数据，生成新的全尺度表。

　　作为一个实施例，增量更新单元包括：

　　分组模块用于根据主键对处理后的原创表数据进行分组；

　　排序模块用于使用自定义函数将处理后的原创表数据按照时间字段和每组的增删改字段进行降序排序，得到排序字段；

　　过滤器模块用于过滤排序字段为1的数据以生成新的满量程。

　　作为一个实施例，还包括过滤单元，过滤单元包括：

　　第一个读取模块用于读取存储在基础库中的采集数据；

　　第一个调用模块用于识别采集数据类别，调用采集数据对应的数据清洗规则；

　　清洗模块用于根据数据清洗规则对采集数据进行过滤。如果数据不符合规则，数据将被保存为异常数据。

　　作为一个实施例，还包括数据处理和转换单元，用于根据满量程输出的目的库对提取的数据进行数据处理和转换。

　　作为一个实施例，数据处理和转换单元包括：

　　第二读取模块用于读取过滤后的数据；

　　第二调用模块用于识别数据类别，调用对应的数据转换规则；

　　处理转换模块用于根据数据转换规则，在原创数据的基础上，增加数据分析所需的字段或减少数据分析的无效字段。

　　与现有技术相比，本发明的有益效果是对采集的数据进行添加时间字段和增删改字段的处理，并将处理后的数据全部插入历史表，过滤最新数据。生成Full scale表，解决现有通过full scale更新表数据的方式，降低系统维护成本。

　　图纸说明

　　图1为本发明大数据平台的数据采集及处理方法流程图；

　　无花果。图2为本发明大数据平台的数据采集及处理系统框图。

　　参考图纸：1、采集单元；2、过滤单元；21、首读模块；22、第一个调用模块；23、清洗模块；3、处理单元；4、增量更新单元；41、分组模块；42、排序模块；43、筛选模块；5、数据处理转换单元；51、二次读取模块；52、二次调用模块；53、处理转换模块；。

　　详细说明

　　下面结合附图对本发明的上述及其他技术特征和优点进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明的部分实施例，而不是全部的实施例。

　　如图1所示，一种大数据平台的数据采集及处理方法包括以下步骤：

　　s100：根据配置信息，通过数据交换工具读取不同数据源的原创表数据；

　　s400：过滤存储在基础数据库中的数据，如果数据不符合规则，则将数据保存为异常数据；

　　s200：对读取的原创表数据进行处理，对数据添加日期字段和增删改字段，生成历史表数据，存入大数据平台基础数据库；

　　s300：全量表数据增量更新时，将处理后的原表数据全部插入历史表，从历史表中提取最新数据生成新的全量表；

　　s500：根据满量程输出的目的库对提取的数据进行数据处理和转换，并将处理转换后的满量程输出到目的库。

　　在本实施例中，数据源主要包括三个来源，一是电子政务平台中的政府和事业单位数据；采集退税数据、阿里诚信档案数据、出口订单数据和*敏*感*词*等。

　　对于表的增量更新，本实施例采用历史表的结构，该表的结构在原表的基础上增加了两个字段：elt_date（日期字段）和jrt_flag_t（增删改查） field), date field 用于记录操作日期；而增删改字段用于记录操作类型，操作类型为增(i)、删(d)、修改(u)三种。进行增量更新时，首先将所有新数据（采集，处理后的数据）插入到历史表中，从历史表中提取最新的数据作为新表（即满量程）。提取方法是根据主键分组，使用row_number窗口函数，根据日期字段和每组的增删改字段降序排序，得到排序字段rowno，过滤掉rowno等于1（保证每条记录都是最新的），jrt_flag_t不生成d 类数据的满量程。日期字段可以保证主键相同的记录是按顺序排列的；添加、删除和修改字段可以确保删除了哪些记录。根据row_number函数和日期字段，将相同主键的记录按顺序数字化（rowno为1为最新）；增删改字段排除删除的记录，最后得到最新的记录。并过滤掉rowno等于1（保证每条记录都是最新的），jrt_flag_t不会为d类型的数据生成满刻度。日期字段可以保证主键相同的记录是按顺序排列的；添加、删除和修改字段可以确保删除了哪些记录。根据row_number函数和日期字段，将相同主键的记录按顺序数字化（rowno为1为最新）；增删改字段排除删除的记录，最后得到最新的记录。并过滤掉rowno等于1（保证每条记录都是最新的），jrt_flag_t不会为d类型的数据生成满刻度。日期字段可以保证主键相同的记录是按顺序排列的；添加、删除和修改字段可以确保删除了哪些记录。根据row_number函数和日期字段，将相同主键的记录按顺序数字化（rowno为1为最新）；增删改字段排除删除的记录，最后得到最新的记录。删除和修改字段可以确保删除了哪些记录。根据row_number函数和日期字段，将相同主键的记录按顺序数字化（rowno为1为最新）；增删改字段排除删除的记录，最后得到最新的记录。删除和修改字段可以确保删除了哪些记录。根据row_number函数和日期字段，将相同主键的记录按顺序数字化（rowno为1为最新）；增删改字段排除删除的记录，最后得到最新的记录。

　　数据过滤的任务是对那些不符合要求的数据进行过滤，并在提取前确认是否被建设单位过滤掉或纠正。不符合要求的数据主要包括三类：不完整数据、错误数据和重复数据。数据不全：这类数据主要是缺少一些应有的信息，如供应商名称、分公司名称、客户区域信息缺失、主表不匹配以及业务系统中的明细表等。对于此类数据，将缺失的内容写入不同的excel文件提交给客户，要求在规定时间内完成。完成后写入数据仓库；错误数据：出现此类错误的原因是业务系统不够健全，收到输入后不做判断直接写入后台数据库。字符串数据后面有回车、日期格式错误、日期越界等，这类数据也应该分类。对于类似全角字符和数据前后不可见字符的问题，只能通过编写SQL语句来查找和纠正；重复数据：对于这类数据，尤其是维度表中会出现这种情况，将重复数据记录的所有字段一一导出，让客户确认整理。主要包括以下步骤：接收输入后不做判断直接写入后台数据库。字符串数据后面有回车、日期格式错误、日期越界等，这类数据也应该分类。对于类似全角字符和数据前后不可见字符的问题，只能通过编写SQL语句来查找和纠正；重复数据：对于这类数据，尤其是维度表中会出现这种情况，将重复数据记录的所有字段一一导出，让客户确认整理。主要包括以下步骤：接收输入后不做判断直接写入后台数据库。字符串数据后面有回车、日期格式错误、日期越界等，这类数据也应该分类。对于类似全角字符和数据前后不可见字符的问题，只能通过编写SQL语句来查找和纠正；重复数据：对于这类数据，尤其是维度表中会出现这种情况，将重复数据记录的所有字段一一导出，让客户确认整理。主要包括以下步骤：这种类型的数据也应该分类。对于类似全角字符和数据前后不可见字符的问题，只能通过编写SQL语句来查找和纠正；重复数据：对于这类数据，尤其是维度表中会出现这种情况，将重复数据记录的所有字段一一导出，让客户确认整理。主要包括以下步骤：这种类型的数据也应该分类。对于类似全角字符和数据前后不可见字符的问题，只能通过编写SQL语句来查找和纠正；重复数据：对于这类数据，尤其是维度表中会出现这种情况，将重复数据记录的所有字段一一导出，让客户确认整理。主要包括以下步骤：

　　s401：读取存储在基础库中的采集数据；

　　s402：识别采集数据类别，调用采集数据对应的数据清洗规则；

　　s403：根据数据清洗规则过滤采集数据。如果发现数据不符合规则，则将数据保存为异常数据。用户可以查看异常数据并修正异常数据。

　　数据转换的任务包括不一致的数据转换、数据粒度的转换以及一些业务规则的计算。从数据源提取的数据可能不完全满足目标数据库的要求，如数据格式不一致、数据输入错误、数据不完整等，因此需要对提取的数据进行数据转换和处理。不一致的数据转换：这个过程是一个集成过程，将不同业务系统中的相同类型的数据统一起来。例如，同一企业信息在电子政务系统中的代码为xx0001，在银行中的代码为yy0001。统一转换成代码；数据粒度转换：业务系统一般存储非常详细的数据，而数据仓库中的数据用于分析，并且不需要非常详细的数据。一般情况下，业务系统数据会按照数据仓库的粒度进行聚合；业务规则的计算：不同的企业有不同的业务规则和不同的数据指标。，此时需要将这些数据指标在etl中计算出来，存储在数据仓库中进行分析。主要包括以下步骤：

　　s501：读取过滤后的数据；

　　s502：识别数据类别，调用对应的数据转换规则；

　　s503：根据数据转换规则，在原创数据的基础上增加数据分析所需字段或减少数据分析无效字段。

　　如图2所示，大数据平台的数据采集及处理系统包括：

　　采集单元用于根据配置信息通过数据交换工具读取不同数据源的原创表数据；

　　过滤单元用于过滤存储在基础数据库中的数据。如果数据不符合规则，数据将被保存为异常数据。

　　处理单元用于对读取的原创表数据进行处理，对数据添加日期字段和增删改字段生成历史表数据，并存储在大数据平台的基础数据库中；

　　增量更新单元用于在全量表数据增量更新时，将处理后的原表数据全部插入历史表，从历史表中提取最新数据生成新的全量表；

　　数据处理转换单元用于根据满量程输出的目的库对提取的数据进行处理和转换。

　　其中，增量更新单元包括：分组模块，用于将处理后的原表数据按照主键分组；排序模块，用于使用row_number窗口函数，在每组中，时间字段和增删改字段都会经过处理，将处理后的原创表数据进行降序排序，得到排序字段；过滤模块用于过滤排序字段为1的数据，生成新的满量程。

　　过滤单元包括第一读取模块，用于读取存储在基础库中的采集数据；第一调用模块，用于识别采集数据类别，并用于调用和采集数据对应的数据清洗规则；清洗模块，用于根据数据清洗规则过滤采集数据。

　　数据处理转换单元包括第二读取模块，用于读取过滤后的数据；第二调用模块，用于识别数据类别并调用相应的数据转换规则；处理转换模块，用于根据数据转换规则在原创数据的基础上，增加数据分析所需的字段或减少数据分析的无效字段。

　　本发明的数据采集及大数据平台的处理方法和系统对数据采集进行添加时间字段和增删改字段的处理，并将处理后的数据全部插入历史table ，从中筛选出最新的数据，生成全量表，通过全量更新的方式解决了更新表数据的问题，降低了系统维护成本。

　　以上所述的具体实施例对本发明的目的、技术方案及有益效果作了进一步的详细说明。应当理解，以上所述仅为本发明的具体实施例而已，并不用于限制本发明的保护范围。. 需要特别指出的是，对于本领域的技术人员来说，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应收录在本发明的保护范围之内。

0

2022-04-06

优采集平台

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

优采集平台( 一种实施例提供一种大数据平台的数据采集和处理方法及系统)

0 个评论

发起人

AI时代内容工厂

优采集平台( 一种实施例提供一种大数据平台的数据采集和处理方法及系统)

0 个评论

发起人

相关问题