gpt4 book ai didi

Hadoop拆分方法

转载 作者:可可西里 更新时间:2023-11-01 16:59:43 26 4
gpt4 key购买 nike

我知道并读过很多次 Hadoop 不知道输入文件中的内容,并且拆分取决于 InputFileFormat,但让我们更具体一些......例如,我读到 GZIP 不可拆分,所以如果我有一个 1 TB 的唯一 gzip 压缩输入文件,并且没有一个节点具有该大小的 hd,会发生什么?输入将被拆分,但 hadoop 将添加有关一个 block 与其他 block 之间的依赖关系的信息?

其他问题,如果我有一个巨大的 .xml 文件,所以基本上是文本,拆分是如何工作的,按行还是按 block 大小的配置 MB?

最佳答案

BZIP2 在 hadoop 中是可拆分的 - 它提供了非常好的压缩率,但从 CPU 时间和性能来看并没有提供最佳结果,因为压缩非常消耗 CPU。

LZO 在 hadoop 中是可拆分的 - 利用 hadoop-lzo 您有可拆分的压缩 LZO 文件。您需要有外部 .lzo.index 文件才能并行处理。该库提供了以本地或分布式方式生成这些索引的所有方法。

LZ4 在 hadoop 中是可拆分的 - 利用 hadoop-4mc 您有可拆分的压缩 4mc 文件。您不需要任何外部索引,并且可以使用提供的命令行工具或通过 Java/C 代码在 hadoop 内部/外部生成存档。 4mc 在 hadoop LZ4 上提供任何级别的速度/压缩率:从达到 500 MB/s 压缩速度的快速模式到提供更高压缩率的高/超模式,几乎与 GZIP 相当。

ZSTD (zstandard) 现在也可以通过利用 hadoop-4mc 在 hadoop/Spark/Flink 中拆分.

请查看 Hadoop Elephant Bird 在您的作业中处理复杂的输入。无论如何,XML 在 EB 或 hadoop 中是不可拆分的,AFAIK。

关于Hadoop拆分方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25845101/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com