gpt4 book ai didi

hadoop - 使用gzip作为还原器会产生损坏的数据

转载 作者:行者123 更新时间:2023-12-02 21:47:42 24 4
gpt4 key购买 nike

当我像这样运行hadoop流时:

hadoop jar /opt/cloudera/parcels/CDH/lib/hadoop-mapreduce/hadoop-streaming.jar 
-Dmapred.reduce.tasks=16
-input foo
-output bar
-mapper "python zot.py"
-reducer gzip

我在输出目录中得到16个损坏的文件:
$ hadoop fs -get bar/part-00012
$ file part-00012
gzip compressed data, from Unix
$ cat part-00012 | gunzip >/dev/null

gzip: stdin: invalid compressed data--format violated

当我目视检查 cat part-00012 | gunzip的输出时,我看到看起来有些正确然后又很不正确的部分,然后 gunzip消失了。
  • 为什么文件损坏了?

  • PS。我知道我可以使用 mapred.output.compress=true 将数据集拆分为少量的gzip压缩文件。

    PPS。这是给 vw的。

    最佳答案

    您将要直接在jobconf设置中使用output.compress。无需通过gzip发送。
    看到my answer到另一个问题。

    关于hadoop - 使用gzip作为还原器会产生损坏的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23767971/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com