文章实时采集(【开源项目】FlinkXWal插件PostgreSQL实时采集功能的基本介绍)
优采云 发布时间: 2021-09-04 13:24文章实时采集(【开源项目】FlinkXWal插件PostgreSQL实时采集功能的基本介绍)
Data Stack 是云原生站数据平台 PaaS。我们在 github 和 gitee 上有一个有趣的开源项目:FlinkX。 FlinkX是一个基于Flink的batch-stream统一数据同步工具,可以是采集静态数据,也可以是采集实时变化的数据。它是一个全局的、异构的、批量流数据同步引擎。如果你喜欢,请给我们一个star!星星!明星!
github 开源项目:
gitee 开源项目:
一、FlinkX 实时采集功能基本介绍
首先介绍一下FlinkX实时模块的分类,如下图所示:
1、real-time采集module (CDC)
1)MySQL Binlog 插件
使用阿里开源的Canal组件从MySQL实时捕获变化数据。
2)PostgreSQL Wal插件
<p>PostgreSQL实时采集基于PostgreSQL的逻辑复制和逻辑解码功能。逻辑复制同步数据的原理是在Wal日志生成的数据库上,逻辑分析模块对Wal日志进行初步分析。其分析结果为ReorderBufferChange(可以简单理解为HeapTupleData),Pgoutput Plugin对中间结果进行过滤和消息拼接后发送给订阅端,订阅端通过逻辑解码函数进行解析。