官方数据:数据上云,应该选择全量抽取还是增量抽取?

优采云 发布时间: 2022-11-29 09:34

  官方数据:数据上云,应该选择全量抽取还是增量抽取?

  概述

  数据抽取是指从源数据中抽取需要的数据,是数据中心建设的第一步。数据源一般是关系型数据库。近年来,随着移动互联网的蓬勃发展,出现了其他类型的数据源,如网站浏览日期、APP浏览日志、物联网设备日志等。

  从技术实现的角度来看,从关系型数据库中获取数据可以细分为全量抽取和增量抽取两种方式。这两种方式适用于不同的业务场景。

  增量提取

  通过时间戳提取增量数据是很常见的。业务系统在源表中添加时间戳字段。创建或修改表记录时,时间戳字段的值也被修改。抽取任务运行时,会进行全表扫描,通过比较抽取任务的业务时间和时间戳字段来确定需要抽取的数据。

  这种数据同步方式在准确性上有两个缺点:

  1、只能获取到最新的状态,无法抓取到进程变化信息。例如,在电商购物场景中,如果客户下单后快速付款,那么在次日抽取增量数据时,只能获取到最新的付款状态。状态可能已经丢失。对于此类问题,需要根据业务需求综合判断是否需要回溯状态。

  2.删除的记录将丢失。如果在业务系统中,记录会被物理删除。增量提取也是不可能的。一般要求业务系统不删除记录,只做标记记录。

  业务系统维护时间戳

  如果使用Oracle、DB2等传统关系型数据库,业务系统需要维护时间戳字段,业务系统在更新业务数据时,会在代码中更新时间戳字段。这种方法很常用,但是由于需要编码实现,工作量会增加,可能会有漏改

  触发器维护时间戳

  典型的关系数据库支持触发器。当数据库记录发生更改时,将调用特定函数来更新时间戳字段。一个典型的例子如下:

  数据库维护时间戳

  MySQL可以自动维护变化的字段,一定程度上减少了开发工作量。具体实现示例如下:

  创造记录

  最终结果如下:

  

" />

  更新记录

  最终结果如下,数据库自动更改时间戳字段:

  近年来,随着互联网的蓬勃发展,互联网公司普遍采用MySQL作为主要数据库。由于是开源数据库,很多公司都做了定制开发。其中一大功能点是通过订阅MySQL binlog日志,实现读写分离和主备实时同步。一个典型的*敏*感*词*如下:

  解析binlog日志为数据同步带来了新的方式,将解析后的结果发送给Hive/MaxCompute等大数据平台,实现秒级延迟的数据同步。

  增量同步解析binlog日志的方式非常先进,具有三大优势:

  1、数据延迟小。在阿里双11场景下,海量数据下,可以做到秒级延时;

  2. 不丢失数据,可以捕捉到数据删除的情况;

  3、业务表没有额外要求,timestamp字段可以不存在;

  当然,这种同步方式也有一些缺点:

  1、技术门槛很高。一般公司的技术储备不足以自己完成整个系统的建设。目前仅限于国内领先的互联网公司、大型国企、央企。但是随着云计算的快速发展,阿里云上已经开放了工具和服务,可以直接实现实时同步。经典组合是MySQL、DTS、Datahub、MaxCompute;

  2、资源成本比较高,需要一个系统实时接收业务库的binlog日志,一直在运行,占用大量资源

  3.业务表中需要有主键进行数据排序

  Oracle是一个非常强大的数据库,通过Oracle GoldenGate实时解析Redo Log并将解析结果发布到指定系统

  全提取

  

" />

  全量抽取是将数据源中表或视图的数据原封不动地从数据库中抽取出来,写入Hive、MaxCompute等大数据平台,类似于业务数据库之间的数据迁移。

  全量同步比较简单,常用于数据量较小的离线同步场景。但是,这种同步方式也有两个缺点,与增量离线同步如出一辙:

  1.只能获取最新状态

  2.被删除的记录会丢失

  业务数据库表同步策略

  原则上,在数据上云过程中,建议只进行数据镜像同步。不进行业务相关的数据转换工作。从ETL策略到ELT,有以下三个出发点:

  1、机器成本。库外转换需要额外的机器,带来新的成本;

  2.通讯费用。业务系统的开发者同时也是数据中心的使用者。这些技术人员熟悉原创

业务数据库表。如果进行额外的转换,他们需要学习额外的工具和产品;

  3、执行效率。库外转换机性能普遍低于MaxCompute和Hadoop集群,增加了执行时间;

  同步过程中,建议将整个表的所有字段都上传到云端,减少后期变更成本

  详情请参考阿里巴巴数据中心官网

  阿里巴巴数据中心团队致力于输出阿里云数据智能的最佳实践,帮助每个企业建设自己的数据中心,共同实现新时代的智慧商业!

  阿里巴巴数据中心解决方案,核心产品:

  Dataphin由阿里巴巴大数据核心方法论OneData驱动,提供一站式数据构建和管理能力;

  Quick BI,融合了阿里巴巴的数据分析经验,提供一站式的数据分析和展示能力;

  Quick Audience整合阿里巴巴的消费者洞察和营销体验,提供一站式的人群选择、洞察和营销投放能力,连接阿里巴巴业务,实现用户增长。

  原文链接

  最新版:圣搜百度关键词seo优化软件 v4.6 绿色正式版

  软件标签: seo搜索优化软件 网站优化 holy search 百度关键词 seo优化软件是一款网站关键词搜索优化软件,可以帮助用户在百度搜索时将自己需要搜索的词排在第一位,让更多人搜索你的话。如果您需要,请来当易网下载使用。

  SEO搜索优化软件 百度关键词优化方法

  百度关键词优化,想要自然排名好,就做百度优化吧!这是一项长期的工作,需要慢慢积累!

  

" />

  1. 选择一个有价值的 关键词 并设置它。

  2、多写软文,经常更新。我个人认为文章更有效,更容易被收录。

  3、最好能快速稳定地打开网站。如果不能经常打开,对优化影响很大。

  4.使用中国网道SEO优化策略,效果会更快。

  

" />

  SEO搜索优化软件使用说明

  1.打开软件,输入要搜索的词

  2.点击开始优化

  3.将流行的关键词添加到主要的关键词

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线