gpt4 book ai didi

hadoop - Spark Streaming StreamingContext 事件计数

转载 作者:可可西里 更新时间:2023-11-01 14:46:44 24 4
gpt4 key购买 nike

spark docs状态:

Only one StreamingContext can be active in a JVM at the same time.

想象一下我计划从两个 Kafka 主题读取/处理数据的情况,其中一个作业从一个 Kafka 主题获取数据,另一个从另一个 Kafka 主题获取数据。我可以在同一个 hadoop 集群上同时触发这两个作业吗?

它还指出,

Once a context has been stopped, it cannot be restarted.

因此,如果由于某种原因我必须停止 spark 作业,有什么方法可以重新启动它?我是否通过 oozie 或其他方式触发它?

最佳答案

Can I trigger these two jobs in parallel on the same hadoop cluster simultaneously?

为了简单起见,让我们澄清一下术语。 StreamingContext 在 Spark 作业中是唯一的。如果您想在同一个作业中读取多个流,您可以通过将相同的 StreamingContext 两次传递给不同的 KafkaUtils.createStream 方法来实现。

如果您有多个提交给 Spark 的作业,那么每个作业都可以拥有自己的 StreamingContext。每个作业都有自己的 JVM 实例。

So if I have to stop the spark job due to some reason, what is the way to get it restarted?

实现您想要的目标的一种可能方法是使用 Spark 的集群模式来运行您的流式处理作业并传递 --supervise 标志。 Spark Master 将确保作业在失败时重新启动。

您可以在 Sparks "Submitting Applications" 中阅读更多相关信息文档。

关于hadoop - Spark Streaming StreamingContext 事件计数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37338659/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com