gpt4 book ai didi

apache-spark - 避免多个流查询

转载 作者:行者123 更新时间:2023-12-03 15:13:57 24 4
gpt4 key购买 nike

我有一个结构化的流查询,它沉到 Kafka。此查询具有复杂的聚合逻辑。

我想将此查询的输出 DF 下沉到多个 Kafka 主题,每个主题都分区在不同的“键”列上。我不想为每个不同的 Kafka 主题有多个 Kafka 接收器,因为这意味着运行多个流查询 - 每个 Kafka 主题一个,特别是因为我的聚合逻辑很复杂。

问题:

  • 有没有办法将结构化流查询的结果输出到多个 Kafka 主题,每个主题都有不同的键列,但不必执行多个流查询?
  • 如果不是,级联多个查询是否有效,这样第一个查询进行复杂的聚合并将输出写入 Kafka,然后其他查询仅读取第一个查询的输出并将它们的主题写入 Kafka 从而避免进行复杂的操作又聚合?

  • 在此先感谢您的帮助。

    最佳答案

    所以答案有点盯着我的眼睛。它也被记录在案。下方链接。

    可以从单个查询写入多个 Kafka 主题。如果您要写入的数据框有一个名为“topic”的列(以及“key”和“value”列),它会将一行的内容写入该行中的主题。这会自动工作。因此,您唯一需要弄清楚的是如何生成该列的值。

    这是记录在案的 - https://spark.apache.org/docs/latest/structured-streaming-kafka-integration.html#writing-data-to-kafka

    关于apache-spark - 避免多个流查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48758392/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com