几个基于CDC实时同步数据的开源组件,让你的数据同步更实时( 三 )

  • 实时计算:Flink CDC可以将数据库中的数据变更实时地发送到Flink DataStream流处理引擎中进行实时计算和分析,支持实时业务决策和反应 。
  • Flink CDC的工作原理如下:
    1. Flink CDC启动一个Source Function来监听指定的数据库,并监视其中的变更事件 。
    2. 当数据库中的表发生增删改操作时,Source Function会将这些变更事件转换成Flink DataStream中的数据格式,并发送给Flink流处理引擎中 。
    3. Flink流处理引擎可以对接收到的数据进行各种实时计算和分析,并将结果写入目标数据存储中 。
    Flink CDC是一个非常强大的CDC工具,能够实现数据同步、实时计算和数据备份等功能 。与其他CDC工具相比,Flink CDC的特点是支持非常广泛的数据源和流处理引擎,同时还提供了更加灵活、可定制的API和配置方式 。
    几个基于CDC实时同步数据的开源组件,让你的数据同步更实时

    文章插图
    代码地址:https://github.com/ververica/flink-cdc-connectors.git
    除了以上这些CDC项目外,Pulsar也提供有CDC插件,Pulsar IO CDC是一个Apache Pulsar的插件,用于实时捕获数据库的变更,并将其转化为消息的形式发送到Pulsar集群中 。
    基于日志的CDC相对来说更加全面、可靠、实时、无业务侵入性,但实现起来比较困难,而基于查询的CDC则更加灵活、易用,但延迟高,有可能会影响到业务,还可能会存在遗漏数据的情况 。因此,在选择 CDC 技术时需要根据具体场景和需求来进行选择 。




    推荐阅读