官方地址
ververica/flink-cdc-connectors: CDC Connectors for Apache Flink® (github.com)
介绍
Flink CDC Connectors 是 Apache Flink 的一组源端(Source)连接器,通过捕获变更数据(Change Data Capture)从不同数据库中采集数据。项目早期通过集成 Debezium 引擎来采集数据,支持 全量 + 增量 的模式,保证所有数据的一致性。
主要特性
- Supports reading database snapshot and continues to read transaction logs with exactly-once processing even failures happen.(通过订阅数据库的事务消息达到准确一次的处理)
- CDC connectors for DataStream API, users can consume changes on multiple databases and tables in a single job without Debezium and Kafka deployed.(不依赖Debezium和kafka实现实时数据流处理,可在一个任务中消费多数据库级别、表级别的数据变更)
- CDC connectors for Table/SQL API, users can use SQL DDL to create a CDC source to monitor changes on a single table.(易上手:可使用DDL的方式在一个表上创建CDC connector来监控变化)
使用场景
Flink-CDC主要使用场景类似于DataX,不过DataX主要使用在离线数据同步场景,Flink-cdc主要使用在实时数据场景。
实时数据同步的另外一款常见工具为Canal、不过目前只支持MySQL(MariaDB)数据库。