gpt4 book ai didi

hadoop:lzo 压缩的自动拆分输出

转载 作者:可可西里 更新时间:2023-11-01 14:47:32 25 4
gpt4 key购买 nike

我正在设置 lzo 编解码器以用作我的 hadoop 作业中的压缩工具。我知道 lzo 具有创建可拆分文件的理想功能。但是我还没有找到让 lzo 自动创建可拆分文件的方法。到目前为止我读过的博客都提到在作业外使用索引器并将输出 lzo 文件作为 mapreduce 作业的输入。

我正在使用一些 hadoop 基准测试,我不想更改基准测试代码,只是在 hadoop 中使用 lzo 压缩来查看它对基准测试的影响。我计划使用 lzo 作为压缩 map 输出的编解码器,但如果输出不可拆分,则下一阶段必须在节点中获取整个压缩输出才能工作。

是否有任何 hadoop 配置选项指示 lzo 使输出文件可拆分,以便透明地完成?

最佳答案

BZIP2 在 hadoop 中是可拆分的 - 它提供了非常好的压缩比,但从 CPU 时间和性能来看并没有提供最佳结果,因为压缩非常消耗 CPU。

LZO 在 hadoop 中是可分割的——利用 hadoop-lzo 你有可分割的压缩 LZO 文件。您需要有外部 .lzo.index 文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4 在 hadoop 中是可分割的——利用 hadoop-4mc,你有可分割的压缩 4mc 文件。您不需要任何外部索引,并且可以使用提供的命令行工具或通过 Java/C 代码在 hadoop 内部/外部生成存档。 4mc 在 hadoop LZ4 上提供任何级别的速度/压缩率:从达到 500 MB/s 压缩速度的快速模式到提供更高压缩率的高/超模式,几乎与 GZIP 相当。

ZSTD 是更好的压缩,hadoop-4mc 也支持。

关于hadoop:lzo 压缩的自动拆分输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/16805326/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com