gpt4 book ai didi

Java+Spark wordCount 与 EMR

转载 作者:行者123 更新时间:2023-12-01 17:32:02 25 4
gpt4 key购买 nike

我一直在尝试运行 Pi 估计和 https://spark.apache.org/examples.html 上找到的 wordCount 示例在Java中使用EMR

Pi 估计工作正常,所以我假设一切都设置正确。但我在 wordCount 中遇到了这个错误:

线程“main”org.apache.hadoop.mapred.InvalidInputException中出现异常:输入路径不存在:hdfs://XXX/user/hadoop/input.txt

在运行此命令之前,我已从 s3 下载了我的 input.txt 和 jar:

spark-submit --class "wordCount"--master local[4] Spark05-1.1.jar input.txt

这是我的字数统计代码:

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import scala.Tuple2;

import java.util.Arrays;

public final class wordCount {

public static void main(String[] args) {

SparkConf sparkConf = new SparkConf().setMaster("local").setAppName("JD Word Counter");

JavaSparkContext sparkContext = new JavaSparkContext(sparkConf);



JavaRDD<String> textFile = sparkContext.textFile(args[0]);
JavaPairRDD<String, Integer> counts = textFile
.flatMap(s -> Arrays.asList(s.split(" ")).iterator())
.mapToPair(word -> new Tuple2<>(word, 1))
.reduceByKey((a, b) -> a + b);
counts.saveAsTextFile("result.txt");


}
}

我做错了什么吗?

最佳答案

如果您没有在hdfs上加载input.txt,请先将其放入hdfs后再尝试。

或者,尝试使用带有前缀“file”的完整路径,例如)file://{YOUR_FILE_PATH}。
我相信它是因为 Spark 配置中的“fs.defaultFS”是“hdfs”。

关于Java+Spark wordCount 与 EMR,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61101610/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com