gpt4 book ai didi

apache-spark - Spark Streaming Job的调度延迟突然增加,其他参数没有变化

转载 作者:行者123 更新时间:2023-12-03 17:39:12 24 4
gpt4 key购买 nike

我有一个 Spark 流作业在生产中运行,批量为 1 秒。我使用 CDH 5.5 Spark 1.5。我们使用 Kafka 创建 Directstream。我们启用了背压。我们不想起诉动态分配所以作业以固定数量的执行者执行。

来自 below image我可以看到这些是从 13.50 开始的调度延迟突然增加但在同一时间我没有看到处理时间有任何处理。

  • 当处理时间相同时,调度时间增加的可能原因是什么。
  • 集群中的其他作业负载是否影响当前的流作业。在我看来,情况不应该是这样,因为流的执行器是预先分配的并且已经在运行

  • 有什么想法吗?

    enter image description here

    最佳答案

    起初这确实是一个奇怪的问题,但让我们进入这一点Does other job loads in the cluster effect the current streaming job .答案是,如果另一个进程开始在同一个集群上运行,cpu 份额将受到影响,并可能导致争用,此时您会看到等待。您是否有机会在容器中运行 Spark ?也很难完全理解您的问题,因为我不知道您是如何设置集群的。

    关于apache-spark - Spark Streaming Job的调度延迟突然增加,其他参数没有变化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40349921/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com