gpt4 book ai didi

hadoop - Datanode磁盘已满,因为有大量文件作为标准输出

转载 作者:行者123 更新时间:2023-12-02 20:29:38 27 4
gpt4 key购买 nike

我们有以下Hadoop集群版本,(DATA-NODE机器在Linux OS版本7.2上)

ambari-2.6.1
HDP-2.6.4


我们很少看到datanode机器上的磁盘已满100%的情况

那是因为作为- stdout 的文件很大

例如

/grid/sdb/hadoop/yarn/log/application_151746342014_5807/container_e37_151003535122014_5807_03_000001/stdout

从df -h可以看到
df -h /grid/sdb
Filesystem Size Used Avail Use% Mounted on
/dev/sdb 1.8T 1.8T 0T 100% /grid/sdb

关于如何避免这种情况的任何建议,即stdout很大,实际上这个问题导致在datanode上停止HDFS组件,

第二:
由于stdout的路径为:
/var/log/hadoop-yarn/containers/[application id]/[container id]/stdout

是否可以限制文件大小?
还是在文件达到阈值时清除stdout?

最佳答案

看上面的路径,看来您的应用程序(Hadoop Job)正在将很多数据写入stdout文件。当Job使用data函数或类似功能将stdout写入System.out.println时,通常会发生这种情况,这不是必需的,但有时可用于调试代码。

请检查您的应用程序代码,并确保它不会写入stdout

希望这可以帮助。

关于hadoop - Datanode磁盘已满,因为有大量文件作为标准输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54027159/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com