gpt4 book ai didi

Hadoop - 输入目录问题

转载 作者:可可西里 更新时间:2023-11-01 15:43:11 24 4
gpt4 key购买 nike

主要问题是程序启动了一个线程“main”中的异常 org.apache.hadoop.mapred.FileAlreadyExistsException:输出目录 hdfs://quickstart.cloudera:8020/user/davide/wordcount/input 已经存在

我运行的启 Action 业的命令如下:hadoop jar wordcount.jar org.wordcount.WordCount/user/davide/wordcount/input/user/davide/wordcount/output 这似乎是正确的(输出目录不存在,因为 hadoop 假装)。

在 java 文件中,路径似乎设置正确:

FileInputFormat.addInputPath(job, new Path(args[0]));
FileOutputFormat.setOutputPath(job, new Path(args[1]));

我尝试了几种解决方案,但无法找出问题所在。

提前致谢。

最佳答案

问题在于您的参数编号:args[0] 实际上是 org.wordcount.WordCount,因此您需要使用 args[1] 用于输入,args[2] 用于输出。如果您注意到,错误会显示 Output directory hdfs://quickstart.cloudera:8020/user/davide/wordcount/input already exists - 它正在尝试使用 input 文件夹作为输出。

解决这个问题:

FileInputFormat.addInputPath(job, new Path(args[1]));
FileOutputFormat.setOutputPath(job, new Path(args[2]));

关于Hadoop - 输入目录问题,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56018277/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com