gpt4 book ai didi

hadoop - 如何告诉 Hadoop 在任务被终止时不要从 HDFS 中删除临时目录?

转载 作者:可可西里 更新时间:2023-11-01 16:27:25 25 4
gpt4 key购买 nike

默认情况下,hadoop map 任务将处理过的记录写入位于 ${mapred.output.dir}/_temporary/_${taskid} 的临时目录中的文件中。这些文件一直放在这里,直到 FileCommiter 将它们移动到 ${mapred.output.dir}(任务成功完成后)。我有这样的情况,在 map task 的 setup() 中,我需要在上面提供的临时目录下创建文件,在那里我写了一些稍后在其他地方使用的过程相关数据。但是,当 hadoop 任务被终止时,临时目录将从 HDFS 中删除。

任何人都知道是否可以告诉 Hadoop 在任务被终止后不删除该目录,以及如何实现?我想应该提供一些我可以配置的属性。

问候

最佳答案

依赖临时文件不是一个好习惯,因为临时文件的位置和格式可以在不同版本之间随时更改。

无论如何,将 mapreduce.task.files.preserve.failedtasks 设置为 true 将保留所有失败任务的临时文件并设置 mapreduce.task。 files.preserve.filepattern 到任务 ID 的正则表达式将保留匹配模式的临时文件,无论任务成功或失败。

关于hadoop - 如何告诉 Hadoop 在任务被终止时不要从 HDFS 中删除临时目录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8328818/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com