gpt4 book ai didi

hadoop - hadoop hdfs中的/tmp目录是什么?

转载 作者:可可西里 更新时间:2023-11-01 14:11:03 60 4
gpt4 key购买 nike

我有 4 个数据节点的集群,每个节点上的 hdfs 结构如下

enter image description here

我面临磁盘空间问题,您可以看到来自 hdfs 的 /tmp 文件夹占用了更多空间 (217GB)。所以我试图调查 /tmp 文件夹中的数据。我发现了以下临时文件。我访问了这些临时文件夹,每个文件夹都包含一些大小为 10gb 到 20gb 的部分文件。我想清除这个/tmp 目录。谁能告诉我删除这些 tmp 文件夹或零件文件的后果。它会影响我的集群吗?

enter image description here

最佳答案

HDFS/tmp目录主要用作mapreduce操作时的临时存储。 Mapreduce 工件、中间数据等将保存在此目录下。当 mapreduce 作业执行完成时,这些文件将被自动清除。如果删除此临时文件,它会影响当前正在运行的 mapreduce 作业。

临时文件由 pig 创建。临时文件删除发生在最后。如果脚本执行失败或被终止,Pig 不会处理临时文件删除。那么你必须处理这种情况。您最好在脚本本身中处理此临时文件清理事件。

下面的文章给你一个很好的理解

http://www.lopakalogic.com/articles/hadoop-articles/pig-keeps-temp-files/

关于hadoop - hadoop hdfs中的/tmp目录是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24885881/

60 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com