gpt4 book ai didi

hadoop - 跳过hadoop中的错误输入文件

转载 作者:行者123 更新时间:2023-12-02 20:08:16 26 4
gpt4 key购买 nike

我正在使用Amazon Elastic MapReduce处理一些上传到S3的日志文件。

每天使用S3从服务器上载日志文件,但似乎有些文件在传输过程中被损坏。这导致java.io.IOException: IO error in map input file异常。

有什么办法让hadoop跳过错误的文件?

最佳答案

您可以使用一堆记录跳过配置属性来执行此操作-请参阅http://hadoop.apache.org/docs/r1.2.1/mapred-default.html上带有mapred.skip.前缀的属性

关于此主题以及这些配置属性,还有一篇不错的博客文章:

  • http://devblog.factual.com/practical-hadoop-streaming-dealing-with-brittle-code

  • 就是说,如果文件完全损坏(即在第一个记录之前损坏),即使这些属性也可能存在问题。

    关于hadoop - 跳过hadoop中的错误输入文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19928849/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com