gpt4 book ai didi

scala - 为什么使用 updateStateByKey 时任务大小一直在增长?

转载 作者:行者123 更新时间:2023-12-02 04:52:25 26 4
gpt4 key购买 nike

我编写了一个与 updateStateByKey 一起使用的简单函数,以查看问题是否是因为我的 updateFunc。我认为这一定是由于其他原因。我在 --master local[4] 上运行它。

val updateFunc = (values: Seq[Int], state: Option[Int]) => {
Some(1)
}

val state = test.updateStateByKey[Int](updateFunc)

一段时间后,有警告,任务大小不断增加。

WARN TaskSetManager:阶段 x 包含一个非常大的任务 (129 KB)。建议的最大任务大小为 100 KB。

WARN TaskSetManager:阶段 x 包含一个非常大的任务 (131 KB)。建议的最大任务大小为 100 KB。

最佳答案

您的流中有越来越多的不同键,每个键都会将 1 的新副本添加到您的状态。

当前 updateStateByKey 在每个批处理间隔中扫描每个键,即使该键没有数据。这会导致 updateStateByKey 的批处理时间随着状态中键的数量而增加,即使数据速率保持固定

有一个proposal to solve this .

关于scala - 为什么使用 updateStateByKey 时任务大小一直在增长?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26694235/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com