gpt4 book ai didi

scala - Spark 卡在删除广播变量(可能)

转载 作者:行者123 更新时间:2023-12-04 18:21:29 31 4
gpt4 key购买 nike

Spark 2.0.0-预览版

我们有一个应用程序使用了相当大的广播变量。我们在大型 EC2 实例上运行它,因此部署处于客户端模式。广播变量是一个巨大的 Map[String, Array[String]]

saveAsTextFile 结束时,文件夹中的输出似乎是完整和正确的(除了 .crc 文件仍然存在)但是 spark-submit 过程似乎停留在删除广播变量上。卡住的日志如下所示:http://pastebin.com/wpTqvArY

在执行 saveAsTextFile 之后,我的最后一次运行持续了 12 小时 - 只是坐在那里。我在驱动程序进程上做了一个 jstack,大多数线程都已停放:http://pastebin.com/E29JKVT7

全文:

我们将此代码与 Spark 1.5.0 一起使用并且它有效,但随后数据发生变化并且某些内容停止适合 Kryo 的序列化缓冲区。增加它没有帮助,所以我不得不禁用 KryoSerialiser。再次测试 - 它挂了。切换到 2.0.0-preview - 似乎是同一个问题。

鉴于几乎没有 CPU 事件且日志中没有输出,我什至不确定发生了什么,但输出并没有像以前那样最终确定。

非常感谢任何帮助,谢谢。

最佳答案

我有一个非常相似的问题。

我正在从 spark 1.6.1 更新到 2.0.1,我的步骤在完成后挂起。

最后,我设法通过在任务末尾添加一个 sparkContext.stop() 来解决它。

不确定为什么需要它,但它解决了我的问题。希望这可以帮助。

ps:这篇文章让我想起了这个https://xkcd.com/979/

关于scala - Spark 卡在删除广播变量(可能),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38311045/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com