gpt4 book ai didi

java - 具有多个输出的 FileAlreadyExistsException

转载 作者:可可西里 更新时间:2023-11-01 14:58:23 25 4
gpt4 key购买 nike

我在 Ubuntu 14.04 上使用 Hadoop 2.5.1

现在我正在尝试使用 MultipleOutputs 类。这些作业可以在 8 行输入等小数据上正常运行。但是当我尝试用 1000 多行运行数据时(不是所谓的大但我认为大于 8),任务失败并抛出异常说

org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.fs.FileAlreadyExistsException): /out/_temporary/1/_temporary/attempt_1430139159731_0055_m_000000_0/MYFOLDERNAME-m-00000 for client MY_MASTER/SLAVE_IP already exists

我正在运行 2 个节点的完全分布式模式。

我还在运行作业之前仔细检查了 hdfs,那里没有现有文件。

请提出任何建议。

最佳答案

我相信您正在 reduce 方法中初始化 MultipleOutputs。对于小输入,reduce 方法只被调用一次,因此您不会遇到这个问题。当在同一任务中使用不同的键多次调用 reduce 方法时,多个输出会多次初始化并给出错误。

尝试在 configure() 方法中初始化 MultipleOutput。

同时尝试注释掉 combiner 类。

关于java - 具有多个输出的 FileAlreadyExistsException,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29901924/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com