跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 各位大佬,并行的 2 条队列数据怎么做实时融合
未分類
26 12 月 2021

各位大佬,并行的 2 条队列数据怎么做实时融合

各位大佬,并行的 2 条队列数据怎么做实时融合

資深大佬 : whats 17

背景:

  1. 有 2 个数据源分别实时向 kafka 两个 topic ( topicA, topicB )写数据,A ,B 数据量日均一千万左右。
  2. topicA, topicB 数据写入顺序略微不同,理论上 A, B 路数据一一对应,通过唯一 ID 可以关联,实际可能会漏数据,也就是存在一部分关联不上的数据。

需求:

  1. 需要两个 topic 数据关联上后(都消费到后)再执行后面的操作,且时效性要求较高(因此无法通过离线关联)。

各位彦祖有没好的方案或者工具可以处理这种情况。

大佬有話說 (13)

  • 資深大佬 : Itoktsnhc

    感觉是 Flink

  • 資深大佬 : Itoktsnhc

    自己实现应该有一个窗口期,比如 5 分钟,从 Topic A 和 B 中取数据,每份数据没有匹配最多向后等待一个窗口期,超时后没有匹配到扔到错误处理流程。正确匹配的数据合并后进入成功的 Topic 作为下游处理队列

  • 資深大佬 : xx6412223

    源端无法保障,你需要的是一个错误处理流程

  • 資深大佬 : masterclock

    flink stateful functions 似乎可以比较好地解决

  • 資深大佬 : SbloodyS

    Flink 搞定

  • 資深大佬 : SmiteChow

    需要前置一个过滤器消费者,整合任务并生产新任务
    消费者至少有两个逻辑
    1. 批量拉两个 topic 的任务,然后整合
    2. 标记整合失败的任务,如果次数或时间大于一定阈值内丢弃任务,其他则重新放回队列等待下次整合

  • 資深大佬 : SmiteChow

    另外不要用 Flink 来做这个事,杀鸡焉用牛刀,Flink 是用来在流上做聚合运算的。
    你要的不过是整合一个完整的参数给消费者消费。

  • 資深大佬 : MoYi123

    加个 redis, 拿到数据的时候查不到就写入, 能查到就直接合并不就好了.

  • 資深大佬 : azkaban

    标准的 flink 双流 join 场景

  • 資深大佬 : azkaban

    @SmiteChow 他这个需求就是简易的实时数据打宽,很标准的 flink 实时数仓场景

  • 主 資深大佬 : whats

    大家似乎都觉得 flink 做比较合适

  • 資深大佬 : SmiteChow

    @azkaban 你根本没理解聚合的意思,另外你可以说 flink 是实时流运算,因为它可能直接对接了实时的流,你也可以说数据仓库能应对实时取数的场景,但你不能说 flink 是应对实时数据仓库的,这是两个概念。

  • 資深大佬 : azkaban

    @SmiteChow flink 不是专门做实时数仓的,但是实时数仓确实是 flink 的一大应用方向啊,ffa 上实时数仓可是几大专场之一

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具