gpt4 book ai didi

compression - 关于 Hadoop 和压缩输入文件的非常基本的问题

转载 作者:可可西里 更新时间:2023-11-01 14:08:41 27 4
gpt4 key购买 nike

我已经开始研究 Hadoop。如果我的理解是正确的,我可以处理一个非常大的文件,它会被拆分到不同的节点上,但是如果文件被压缩,那么文件就无法拆分,需要由单个节点处理(有效地破坏了在并行机集群上运行 mapreduce)。

我的问题是,假设以上是正确的,是否可以将大文件手动拆分为固定大小的 block 或每日 block ,压缩它们,然后传递压缩输入文件列表以执行 mapreduce?

最佳答案

BZIP2 在 hadoop 中是可拆分的 - 它提供了非常好的压缩率,但从 CPU 时间和性能来看并没有提供最佳结果,因为压缩非常消耗 CPU。

LZO 在 hadoop 中是可拆分的 - 利用 hadoop-lzo 您有可拆分的压缩 LZO 文件。您需要有外部 .lzo.index 文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4 在 hadoop 中是可拆分的 - 利用 hadoop-4mc 您有可拆分的压缩 4mc 文件。您不需要任何外部索引,并且可以使用提供的命令行工具或通过 Java/C 代码在 hadoop 内部/外部生成存档。 4mc 在 hadoop LZ4 上提供任何级别的速度/压缩率:从达到 500 MB/s 压缩速度的快速模式到提供更高压缩率的高/超模式,几乎与 GZIP 相当。

关于compression - 关于 Hadoop 和压缩输入文件的非常基本的问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2078850/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com