gpt4 book ai didi

apache-spark - 一个执行者在 Spark 流任务中运行的时间比其他执行者长得多

转载 作者:行者123 更新时间:2023-12-04 04:15:15 24 4
gpt4 key购买 nike

enter image description here

我正在将 Spark Streaming 与 kafka 集成,在其中一个阶段中,一个执行器运行速度比另一个执行器慢得多..

从图中可以看出,h10.zw运行了2.6分钟,“任务时间”为52分钟,比其他执行器要长很多。但是随机读取大小/随机写入大小与其他相同。

我想知道什么是“任务时间”? h10.zw 执行器在做什么?如何平衡所有executor的运行时间,避免time skew?

最佳答案

根据您的具体处理,这可能是由于 data skew .尝试 speculative execution并将分区更改为 smaller partitions .这应该有助于确定是否属于这种情况。

关于apache-spark - 一个执行者在 Spark 流任务中运行的时间比其他执行者长得多,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30100470/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com