gpt4 book ai didi

apache-spark - 解释 Spark Stage 输出日志

转载 作者:行者123 更新时间:2023-12-04 05:19:41 24 4
gpt4 key购买 nike

在 AWS 集群上运行 spark 作业时,我相信我已经正确更改了代码以分发数据和我正在使用的算法的工作。但输出看起来像这样:

[Stage 3:>                                                       (0 + 2) / 1000]
[Stage 3:> (1 + 2) / 1000]
[Stage 3:> (2 + 2) / 1000]
[Stage 3:> (3 + 2) / 1000]
[Stage 3:> (4 + 2) / 1000]
[Stage 3:> (5 + 2) / 1000]
[Stage 3:> (6 + 2) / 1000]
[Stage 3:> (7 + 2) / 1000]
[Stage 3:> (8 + 2) / 1000]
[Stage 3:> (9 + 2) / 1000]
[Stage 3:> (10 + 2) / 1000]
[Stage 3:> (11 + 2) / 1000]
[Stage 3:> (12 + 2) / 1000]
[Stage 3:> (13 + 2) / 1000]
[Stage 3:> (14 + 2) / 1000]
[Stage 3:> (15 + 2) / 1000]
[Stage 3:> (16 + 2) / 1000]

将 0 + 2/1000 解释为只有一个两核处理器一次执行 1000 个任务之一是否正确?有 5 个节点(10 个处理器),为什么我看不到 0 + 10/1000?

最佳答案

总共有1000个任务要完成。 2 个内核用于完成 1000 个任务。我不确定您的设置(并且从未使用过 AWS 集群),但我希望您检查 spark.cores.max在你的 Spark 配置中。这指定了要在所有执行程序中使用的最大内核数。如果您可以显示作业的 spark UI 的 Executors 选项卡的内容,这也很有用

关于apache-spark - 解释 Spark Stage 输出日志,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34816090/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com