gpt4 book ai didi

java - 在独立集群上提交 Spark 应用程序

转载 作者:搜寻专家 更新时间:2023-11-01 03:48:07 25 4
gpt4 key购买 nike

我是 Spark 的新手,在独立集群上运行简单的字数统计应用程序时遇到问题。我有一个集群,由一个主节点和一个工作节点组成,使用 spark-ec2 脚本在 AWS 上启动。当我使用本地运行代码时一切正常./bin/spark-submit --class com.spark.SparkDataAnalysis --master local[*] ./uber-ingestion-0.0.1-SNAPSHOT.jar file:///root/textfile.txt s3n://桶/字数

这会将输出保存到指定的目录中。

当我尝试使用./bin/spark-submit --class com.spark.SparkDataAnalysis --master spark://server-ip:7077 ./uber-ingestion-0.0.1-SNAPSHOT.jar file:///root/文本文件.txt s3n://bucket/wordcount

它只是继续运行,永远不会产生最终结果。目录已创建,但只存在一个 0 字节的临时文件。

根据 Spark UI,它会无限期地继续运行 mapToPair 函数。 Here is a picture of the Spark UI

有谁知道为什么会这样以及如何解决?

代码如下:

public class SparkDataAnalysis {
public static void main(String args[]){
SparkConf conf = new SparkConf().setAppName("SparkDataAnalysis");
JavaSparkContext sc = new JavaSparkContext(conf);

JavaRDD<String> input = sc.textFile( args[0] );

JavaRDD<String> words = input.flatMap( s -> Arrays.asList( s.split( " " ) ) );

JavaPairRDD<String, Integer> counts = words.mapToPair( t -> new Tuple2<String, Integer>( t, 1 ) ).reduceByKey( (x, y) -> x + y );

counts.saveAsTextFile( args[1] );
}
}

最佳答案

我跳过了通过 spark-ec2 脚本使用独立集群,而是使用了 Amazon EMR。一切都很完美。

关于java - 在独立集群上提交 Spark 应用程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37816072/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com