gpt4 book ai didi

hadoop - 在MapReduce中读取gzwirte(zlib)编写的.gz文件不正确

转载 作者:行者123 更新时间:2023-12-02 21:56:35 25 4
gpt4 key购买 nike

.gz文件由名为gzputs&gzwrite的C程序编写。

我通过gzip -l列出了压缩文件的内容,发现uncompressed的值不正确。此值似乎等于最新gzputsgzwrite写入.gz文件的字节。这使得ratio为负值。

这些.gz文件用作Map / Reduce的输入时发生错误。在 map 阶段似乎只能读取.gz文件的一部分。 (该部分的大小似乎等于上面的uncompressed值)。

有人可以教我在C程序或Map / Reduce中应该做什么?

最佳答案

问题解决了。 Map / Reduce中的读取错误似乎是a bug of GZIPInputStream

我已经从Internet找到了一个类似于GZIPInputStream的类,可以正确读取gz文件。然后,我在hadoop中扩展并自定义了TextInputFormat和LineRecordReader。现在可以使用了。

关于hadoop - 在MapReduce中读取gzwirte(zlib)编写的.gz文件不正确,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13004512/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com