gpt4 book ai didi

Hadoop 先生 : better to have compressed input files or raw files?

转载 作者:可可西里 更新时间:2023-11-01 14:20:50 25 4
gpt4 key购买 nike

从问题中可以得出,我想知道什么时候使用压缩格式(如 gzip)的输入文件是有意义的,什么时候使用未压缩格式的输入文件是有意义的。

压缩文件的开销是多少?读取文件时会慢很多吗?是否对大输入文件进行了基准测试?

谢谢!

最佳答案

除非您正在进行开发并且需要经常将数据从 HDFS 读取到本地文件系统以进行处理,否则以压缩格式输入文件通常是有意义的。

压缩格式提供了显着的优势。除非您以其他方式设置,否则数据已经复制到 Hadoop 集群中。复制数据是很好的冗余,但会占用更多空间。如果您的所有数据都以 3 倍的比例进行复制,那么您将消耗 3 倍于存储它所需的容量。

压缩日志数据等文本数据非常有效,因为它产生高压缩率。这也是您通常在 Hadoop 集群中更常见的数据类型。

我没有基准测试,但我没有看到对我们拥有的适当大小的集群和数据有任何重大影响。

不过,暂时选择 LZO 而不是 gzip。

参见:LZO compression and it's significance over gzip

Gzip 比 LZO 压缩得更好。 LZO 的压缩和解压缩速度更快。可以拆分 Lzo 文件,可拆分的 Gzip 不可用,但我已经看到 Jira 任务也是如此。 (也适用于 bzip2)

关于Hadoop 先生 : better to have compressed input files or raw files?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11229272/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com