gpt4 book ai didi

hadoop - Hadoop 中的 setCompressOutput

转载 作者:可可西里 更新时间:2023-11-01 16:24:13 25 4
gpt4 key购买 nike

什么时候该用什么时候不该用FileOutputFormat.setCompressOutput(conf, true);?

我听说它会压缩映射器输出。是否有可能压缩 reducer 侧输出?

(如果我的假设是错误的,请澄清我,如何压缩mapper输出和reducer输出!)

最佳答案

您可以使用 mapred.output.compress 控制 reducer 输出的压缩,并使用 mapred.compress.map.output 控制 mapper 输出的压缩。这些配置键可以在站点范围的配置文件中、在您的作业设置中设置(设置为truefalse),或者设置为-D运行作业时传递给 Hadoop 的选项。

压缩 map 输出通常是个好主意。当输出不是最终结果时,我也会压缩 reduce 输出,例如当我在前一个作业的输出上运行另一个作业时。

压缩通常有助于更快地完成作业(即使它需要额外的压缩/解压缩处理),因为它可以大大减少 I/O 量。

您也可以选择压缩编解码器。我们使用 LZO,它没有随 Hadoop 一起提供,但可以在这里找到:

https://github.com/kevinweil/hadoop-lzo

LZO 以最小的 CPU 开销压缩得很好。 Bzip2 压缩得很好,但开销更大。 Gzip 压缩效果不佳,开销适中。 (这些是概括。)我认为 LZO 具有最佳的特性平衡。

关于hadoop - Hadoop 中的 setCompressOutput,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7239109/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com