gpt4 book ai didi

hadoop - 分割tar.gz后将.tar.gz转换为序列文件

转载 作者:行者123 更新时间:2023-12-02 21:36:27 26 4
gpt4 key购买 nike

是否可以使用map reduce将1个.tar.gz文件转换为1个序列文件?
到目前为止,在不拆分tar.gz或不从本地文件系统拆分所有解决方案的情况下。

http://qethanm.cc/projects/forqlift/examples/

最佳答案

假设您的gzip压缩文件存储在HDFS中,大小为1 GB。 HDFS块大小为
64 MB,文件将被存储为16个块。但是,不会为每个区块创建拆分
之所以可以工作,是因为无法在gzip流中的任意位置开始读取,并且
因此, map task 无法独立于其他任务读取其拆分。的
gzip格式使用DEFLATE存储压缩数据,而DEFLATE存储数据
作为一系列压缩块。问题是每个块的开始都没有
以允许读者位于
流前进到下一个块的开头,从而使其自身同步
与流。因此,gzip不支持拆分。

关于hadoop - 分割tar.gz后将.tar.gz转换为序列文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31893926/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com