gpt4 book ai didi

mapreduce - Spark 日志中的阶段是什么意思?

转载 作者:行者123 更新时间:2023-12-02 19:09:15 25 4
gpt4 key购买 nike

当我使用 Spark 运行作业时,我收到以下日志?

[阶段 0:> (0 + 32)/32]

这里的32对应的是我要求的rdd的分区数。

但是我不明白为什么有多个阶段以及每个阶段到底发生了什么。

每个阶段显然都需要很多时间。是否可以通过更少的阶段来完成?

最佳答案

Spark中的阶段代表本地完成的DAG计算的一段。阶段会在需要重新整理数据的操作上中断,这就是为什么您会在 Spark UI 中看到该操作以该操作命名的原因。如果您使用的是 Spark 1.4+,那么您甚至可以在 UI 的 DAG 可视化部分中进行可视化:

enter image description here

请注意,拆分发生在 reduceByKey 处,这需要进行洗牌才能完成完整执行。

关于mapreduce - Spark 日志中的阶段是什么意思?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32994980/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com