gpt4 book ai didi

streaming - 将 Spark 流连接到流集输入

转载 作者:行者123 更新时间:2023-12-03 06:45:08 27 4
gpt4 key购买 nike

我想知道是否可以从 StreamSets 向 Spark Streaming 提供输入。我注意到 StreamSets 连接器目标 https://streamsets.com/connectors/ 中不支持 Spark 流式处理。

我正在探索是否有其他方法可以连接它们以获取示例 POC。

最佳答案

处理来自 Apache Spark Streaming 中的 Streamsets Data Collector (SDC) 的数据的最佳方法是将数据写入 Kafka 主题并从那里读取数据。这允许您将 Spark Streaming 与 SDC 分开,因此两者都可以按照自己的处理速率进行。

SDC 微批处理是定义的记录计数,而 Spark Streaming 微批处理则由时间决定。这意味着每个 SDC 批处理可能不(也可能不会)对应于 Spark Streaming 批处理(很可能 Spark Streaming 批处理可能包含来自多个 SDC 批处理的数据)。一旦将每个批处理发送到目的地,SDC 就会“提交”每个批处理 - 将批处理写入 Spark Streaming 将意味着每个 SDC 批处理需要与 Spark Streaming 批处理相对应,以避免数据丢失。由于处理或节点故障,Spark Streaming 也有可能“重新处理”已经提交的批处理。 SDC 无法重新处理已提交的批处理 - 因此要从这种情况中恢复,您确实必须编写类似 Kafka 的内容来允许您重新处理批处理。因此,拥有从 SDC 写入 Spark Streaming 的直接连接器会很复杂,并且可能会出现数据丢失问题。

简而言之,您最好的选择是 SDC -> Kafka -> Spark Streaming。

关于streaming - 将 Spark 流连接到流集输入,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38223606/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com