gpt4 book ai didi

apache-spark - Spark saveAsNewAPIHadoopFile 适用于本地模式,但不适用于集群模式

转载 作者:行者123 更新时间:2023-12-04 00:41:49 35 4
gpt4 key购买 nike

升级到 CDH5.4 和 Spark streaming 1.3 后,我遇到了一个奇怪的问题,即 saveAsNewAPIHadoopFile 不再像预期的那样将文件保存到 HDFS。我可以看到正在生成 _temp 目录,但是当保存完成时,_temp 被删除并且目录为空,只有一个 SUCCESS 文件。我有一种感觉,文件已生成,但之后,在删除 _temp 之前,无法将它们移出 _temp 目录。

此问题仅在 Spark 集群(独立模式)上运行时发生。如果我使用本地 spark 运行作业,文件将按预期保存。

一些帮助将不胜感激。

最佳答案

您是在笔记本电脑/台式机上运行它吗?

发生这种情况的一种方式是,如果您用于输出的路径是 NFS 上的相对路径。在这种情况下,Spark 假定相对路径是 hdfs://而不是 file://并且无法写入磁盘。

关于apache-spark - Spark saveAsNewAPIHadoopFile 适用于本地模式,但不适用于集群模式,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30879630/

35 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com