gpt4 book ai didi

bash - Gzip:将一组小文件(<64mb)合并为几个大文件(64mb或128mb)

转载 作者:行者123 更新时间:2023-12-02 20:10:06 25 4
gpt4 key购买 nike

我大约有14000个.gz小文件(从90kb到4mb),这些文件都被加载到HDFS中的同一目录中。

因此,每个文件的大小都与HDFS的标准64mb或128mb块大小相差甚远,这在运行处理这些文件的MR作业时会导致严重的麻烦(“小文件问题”,请参阅cloudera的this博客文章)。 。

前面提到的博客文章包含许多针对此问题的解决方案,主要涉及编写MapReduce作业或使用Hadoop存档(HAR)。

但是,我想从源头上解决问题,并将小文件合并为64mb或128mb .gz文件,然后将其直接馈入HDFS。

最简单的方法是什么?

最佳答案

cat small-*.gz > large.gz

应该足够了。假设您不需要从那里提取单独的文件,那么数据就足够了。

如果您想要单独的文件,只需对其tar:
tar cf large.tar small-*.gz

关于bash - Gzip:将一组小文件(<64mb)合并为几个大文件(64mb或128mb),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17175875/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com