gpt4 book ai didi

hadoop - 使用 HDFS 而不是 spark.local.dir

转载 作者:可可西里 更新时间:2023-11-01 14:53:45 25 4
gpt4 key购买 nike

试图理解为什么 Spark 需要本地机器上的空间!有办法解决吗?我一直遇到“设备上没有剩余空间”。我知道我可以将“spark.local.dir”设置为以逗号分隔的列表,但有没有办法改用 HDFS?

我正在尝试合并两个巨大的数据集。在较小的数据集上,Spark 是 MapReduce 的对手,但在我用这些巨大的数据集证明之前,我不能宣布胜利。我没有使用 yarn 。此外,我们的网关节点(又名边缘节点)不会有很多可用空间。

有解决办法吗?

最佳答案

当 groupByKey 操作时,Spark 只是写入 tmpDir 序列化分区。它是普通文件(请参阅 ShuffledRDD 内容、​​序列化程序等),写入 HDFS 已经足够复杂了。

只需将“spark.local.dir”设置为空闲卷。此数据仅供 native 使用,分布式数据(如 HDFS)不需要。

关于hadoop - 使用 HDFS 而不是 spark.local.dir,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26349217/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com