gpt4 book ai didi

java - 为什么从 Java 应用程序连接到 Spark Standalone 时会抛出 "Cannot call methods on a stopped SparkContext"?

转载 作者:搜寻专家 更新时间:2023-11-01 02:23:07 24 4
gpt4 key购买 nike

我已经下载了为 Hadoop 2.6 及更高版本预构建的 Apache Spark 1.4.1。我有两台 Ubuntu 14.04 机器。其中一台我设置为 Spark master 和一个 slave,第二台机器运行一个 Spark slave。当我执行 ./sbin/start-all.sh 命令时,master 和 slaves 成功启动。之后,我在 spark-shell 中运行示例 PI 程序,将 --master spark://192.168.0.105:7077 设置为 Spark 中显示的 Spark master URL网络用户界面。

到目前为止一切正常。

我创建了一个 Java 应用程序,并尝试将其配置为在需要时运行 Spark 作业。我在 pom.xml 文件中添加了 spark 依赖项。

        <dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.11</artifactId>
<version>1.4.1</version>
</dependency>
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-streaming_2.11</artifactId>
<version>1.4.1</version>
</dependency>

我已经创建了一个 SparkConfig:

private parkConf sparkConfig = new SparkConf(true)
.setAppName("Spark Worker")
.setMaster("spark://192.168.0.105:7077");

然后我使用 SparkConfig 创建了一个 SparkContext:

private SparkContext sparkContext = new SparkContext(sparkConfig);

在这一步会抛出以下错误:

java.lang.IllegalStateException: Cannot call methods on a stopped SparkContext
at org.apache.spark.SparkContext.org$apache$spark$SparkContext$$assertNotStopped(SparkContext.scala:103)
at org.apache.spark.SparkContext.getSchedulingMode(SparkContext.scala:1503)
at org.apache.spark.SparkContext.postEnvironmentUpdate(SparkContext.scala:2007)
at org.apache.spark.SparkContext.<init>(SparkContext.scala:543)
at com.storakle.dataimport.spark.StorakleSparkConfig.getSparkContext(StorakleSparkConfig.java:37)
at com.storakle.dataimport.reportprocessing.DidNotBuyProductReport.prepareReportData(DidNotBuyProductReport.java:25)
at com.storakle.dataimport.messagebroker.RabbitMQMessageBroker$1.handleDelivery(RabbitMQMessageBroker.java:56)
at com.rabbitmq.client.impl.ConsumerDispatcher$5.run(ConsumerDispatcher.java:144)
at com.rabbitmq.client.impl.ConsumerWorkService$WorkPoolRunnable.run(ConsumerWorkService.java:99)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
at java.lang.Thread.run(Thread.java:745)

如果我将 Spark master 更改为 local 一切正常。

private parkConf sparkConfig = new SparkConf(true)
.setAppName("Spark Worker")
.setMaster("local");

我在托管 Spark Master 的同一台机器上运行 Java 应用程序。

我不知道为什么会这样?到目前为止,我找到的每个文档和示例都表明该代码应该使用 Spark Master URL。

知道为什么会发生这种情况以及如何解决它吗?我花了很多时间试图解决这个问题,但到目前为止运气不好。

最佳答案

我认为您将 Spark 1.4.1 用于 Scala 2.10。因此,您需要 spark-core_2.10spark-streaming_2.10 而不是 2.11spark-core_2.11 与为 Scala 2.10 构建的 Spark 不兼容。

要为 Scala 2.11 构建 Spark,请参阅:

http://spark.apache.org/docs/latest/building-spark.html#building-for-scala-211

关于java - 为什么从 Java 应用程序连接到 Spark Standalone 时会抛出 "Cannot call methods on a stopped SparkContext"?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33606403/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com