gpt4 book ai didi

hadoop - 压缩 Hadoop Archive 工具的输出

转载 作者:可可西里 更新时间:2023-11-01 16:01:53 26 4
gpt4 key购买 nike

我正在使用 Hadoop Archive为了减少我的 Hadoop 集群中的文件数量,但为了保留数据,我想尽可能长时间地保留我的数据。然后问题是Hadoop Archive没有减少文件夹大小(我的文件夹有多种类型的文件,大小文件都有,所以不适合使用Sequence File)。

我使用了一些选项,比如 -D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec 但是这是行不通的。

有没有人知道压缩 Hadoop 存档输出的方法,或者建议我以某种方式实现这两个目标(压缩大小和减少文件数量)。

如有任何信息,我们将不胜感激。非常感谢。

最佳答案

您可以使用 mapred compress 并在压缩目录上运行 har

关于hadoop - 压缩 Hadoop Archive 工具的输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38181760/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com