gpt4 book ai didi

java - 通过 Mapreduce 压缩解压缩 Hdfs 文件时附加制表符分隔列

转载 作者:行者123 更新时间:2023-12-02 21:34:35 24 4
gpt4 key购买 nike

我正在使用 Bzip2 格式压缩 Hdfs 上的文本文件

FileOutputFormat.setCompressOutput(jobConf, true);  
FileOutputFormat.setOutputCompressorClass(jobConf,BZip2Codec.class);

并使用 mapreduce 解压
TextInputFormat.setInputPaths(jobConf,"//Bizip file Path");     
FileOutputFormat.setOutputPath(jobConf, new Path(outputFilePath));

但输出包含额外的制表符分隔列
Input - 1,XYZ
2,ABC
Output- 0 -> 1,XYZ
11-> 2,ABC

虽然,在使用 unix 命令时 bzip2 -k /filename.txt和 b unzip2 /filename.bz2没有额外的数据被添加。

最佳答案

0,11是线偏移。如果您不需要将输出键设置为 NullWritable在 BZip2Codec.class 中。

关于java - 通过 Mapreduce 压缩解压缩 Hdfs 文件时附加制表符分隔列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33211766/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com