gpt4 book ai didi

logging - HDFS中使用的不同日志文件大小背后的原理是什么

转载 作者:行者123 更新时间:2023-12-02 21:57:54 26 4
gpt4 key购买 nike

我目前正在为已设置的新Hadoop集群实现日志记录系统。我过去一直看到这些设置的方式是日志记录按天拆分,单个文件拆分为大约10倍的HDFS块大小。当我需要使用这种方法时,我没有任何问题,但是在与一位想将日志存储在一个长文件中的同事讨论之后,我意识到我不太确定为什么我提到的10x方法被使用了。我能想到的原因是:

当我们只对几天感兴趣时,

  • mapreduce作业将运行得更快。
  • 文件可以压缩/压缩/压缩,以节省空间。

  • 还有其他吗?我无法真正弄清楚为什么人们将一天的文件分片达到10倍的HDFS块大小级别。根据我的理论知识,了解更多有关为什么将日志存储为不同大小的哲学将非常酷。

    最佳答案

    文件越大,JobTracker会更好地安排您的作业。超小文件将意味着很多任务,这将导致性能下降。但是,拥有巨大的文件并不能让您仅查询数据集的一部分。您需要在每天产生的数据量与文件的大小之间找到平衡。如果您每天可以产生10倍的块大小,那么每天就有一个文件-这样一来,您只需查询5天的值(value)便很容易。否则,请考虑创建ETL作业以将文件合并在一起。

    关于logging - HDFS中使用的不同日志文件大小背后的原理是什么,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/8944402/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com