gpt4 book ai didi

apache-spark - 更改 spark _temporary 目录路径

转载 作者:行者123 更新时间:2023-12-02 18:29:26 27 4
gpt4 key购买 nike

是否可以更改 _temporary spark在写入之前保存其临时文件的目录?

特别是,由于我正在编写表的单个分区,因此我希望临时文件夹位于分区文件夹中。

有可能吗?

最佳答案

由于它的实现,没有办法使用默认的 FileOutputCommitter,FileOutputCommiter 创建了一个 ${mapred.output.dir}/_temporary 写入文件的子目录,稍后提交后,移至 ${mapred.output.dir} .
最后,删除了整个临时文件夹。当两个或多个 Spark 作业具有相同的输出目录时,文件的相互删除将是不可避免的。
最终,我下载了 org.apache.hadoop.mapred.FileOutputCommitter org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter (您可以将其命名 YourFileOutputCommitter )进行了一些更改以允许 _temporaly 重命名
在您的驱动程序中,您必须添加以下代码:

val conf: JobConf = new JobConf(sc.hadoopConfiguration)
conf.setOutputCommitter(classOf[YourFileOutputCommitter])


// update temporary path for committer
YourFileOutputCommitter.tempPath = "_tempJob1"
注意:最好使用 MultipleTextOutputFormat 重命名文件,因为写入同一位置的两个作业可以相互覆盖。

Update


我在我们的技术博客中创建了简短的帖子,其中包含更多详细信息
https://www.outbrain.com/techblog/2020/03/how-you-can-set-many-spark-jobs-write-to-the-same-path/

关于apache-spark - 更改 spark _temporary 目录路径,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55595930/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com