gpt4 book ai didi

hadoop - Lz4压缩不可拆分

转载 作者:可可西里 更新时间:2023-11-01 15:45:54 31 4
gpt4 key购买 nike

我正在使用lz4压缩并将数据写入一个hive表,这个表有20个文件,每个文件在HDFS上是15G,这个表的每个文件名都以lz4结尾,例如,part-m-00000 .lz4.

当我从此表运行 select count(1) 时,它只启动了 20 个映射器,这意味着 lz4 splittable 没有生效。

据说 lz4 支持对文本文件的拆分,所以我想问一下我应该做什么或额外的步骤来启用它。

最佳答案

假设您可以控制数据的压缩方式,this codec可能更接近您的需要,因为它嵌入了一个可拆分层。它专为与 Hadoop 一起使用而设计。

如果你不能改变格式,而且它被压缩成没有跳转表的单一流,那恐怕没有什么好的解决方案。 lz4 默认情况下,CLI 会将数据拆分为 4 MB 的 block ,但不提供任何跳转表。跳转表使存档易于以随机顺序阅读。没有它,就必须对数据进行流式处理,并按顺序分发 block 以供以后处理。

关于hadoop - Lz4压缩不可拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54906265/

31 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com