flink端到端数据一致性

[复制链接]
发表于 2025-9-22 00:49:45 | 显示全部楼层 |阅读模式




这里有一个注意点,就是flink端的精准一次
1.barrier对齐精准和一次非对齐精准一次 对比​

​维度​​​​Barrier 对齐的精准一次​​​​Barrier 非对齐的精准一次​​​​触发条件​​需等候全部输入流的 Barrier 对齐后才气触发查抄点 收到第一个 Barrier 立刻触发,无需等候对齐 ​​数据处理惩罚方式​​对齐期间壅闭部分数据流,仅处理惩罚未到达 Barrier 的分区数据 允许全部数据继承活动,将 Barrier 后的数据标记为 in-flight 并生存 ​​状态生存内容​​仅生存算子自身的状态(如累加器、窗口状态)额外生存输入/输出缓冲区中的未处理惩罚数据(in-flight 数据)​​资源开销​​低(仅生存状态),但大概因对齐壅闭导致吞吐降落 高(需生存大量缓冲区数据),但镌汰壅闭时间 ​​实用场景​​低延长要求不高的场景,或输入流速率平衡的场景 高吞吐、高延长或反压严峻的场景

​1. Barrier 对齐的精准一次​


  • ​触发逻辑​​:
            当算子收到全部输入流的 Barrier 后,才会触发状态快照。比方,若某个算子有两个输入流,需等候两个流的 Barrier 均到达 。
  • ​数据处理惩罚流程​​:

    • 部分输入流的 Barrier 先到达时,该流后续数据会被缓存(壅闭),其他流的数据继承处理惩罚 。
    • 全部 Barrier 对齐后,同一生存状态并向卑鄙广播 Barrier;                
           
  • ​优点​​:

    • 状态体积小,规复速率快;
    • 严格包管数据仅处理惩罚一次;                
           
​2. Barrier 非对齐的精准一次​


  • ​触发逻辑​​:
            收到恣意一个输入流的 Barrier 后立刻触发快照,无需等候其他流的 Barrier ;
  • ​数据处理惩罚流程​​:

    • 继承处理惩罚全部输入流的数据,包括 Barrier 之后的数据;
    • 将 Barrier 到达时未处理惩罚的数据(输入缓冲区)和已处理惩罚但未输出的数据(输出缓冲区)标记为 in-flight 数据,与状态一起生存 ;
           
  • ​优点​​:

    • 制止因对齐导致的壅闭,提升吞吐量和反压容错本领;
    • 实用于网络延长颠簸或输入流速率差别大的场景
           
生产环境选择发起​

​场景​​​​保举机制​​​​来由​​输入流速率平衡且延长敏感Barrier 对齐制止额外存储开销,规复服从高                         1
                        4
                        高吞吐或反压严峻Barrier 非对齐镌汰壅闭时间,缓解反压影响                         6
                        7
                        状态体积敏感(如 TB 级状态)Barrier 对齐非对齐模式生存的 in-flight 数据大概明显增长存储本钱                         3
                        7
                       

免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!更多信息从访问主页:qidao123.com:ToB企服之家,中国第一个企服评测及商务社交产业平台。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表