scala - Spark - 提交应用程序时出现错误 "A master URL must be set in your configuration"-6ren

scala - Spark - 提交应用程序时出现错误 "A master URL must be set in your configuration"

转载作者：行者123 更新时间：2023-12-03 05:13:37

25

4

我有一个 Spark 应用程序，在本地模式下运行没有问题，但在提交到 Spark 集群时遇到一些问题。

错误信息如下:

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 2.0 in stage 0.0 (TID 2, cluster-node-02): java.lang.ExceptionInInitializerError
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)
Caused by: org.apache.spark.SparkException: A master URL must be set in your configuration
    at org.apache.spark.SparkContext.<init>(SparkContext.scala:401)
    at GroupEvolutionES$.<init>(GroupEvolutionES.scala:37)
    at GroupEvolutionES$.<clinit>(GroupEvolutionES.scala)
    ... 14 more

16/06/24 15:42:06 WARN scheduler.TaskSetManager: Lost task 5.0 in stage 0.0 (TID 5, cluster-node-02): java.lang.NoClassDefFoundError: Could not initialize class GroupEvolutionES$
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at GroupEvolutionES$$anonfun$6.apply(GroupEvolutionES.scala:579)
    at scala.collection.Iterator$$anon$14.hasNext(Iterator.scala:390)
    at org.apache.spark.util.Utils$.getIteratorSize(Utils.scala:1595)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.rdd.RDD$$anonfun$count$1.apply(RDD.scala:1157)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.SparkContext$$anonfun$runJob$5.apply(SparkContext.scala:1858)
    at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
    at org.apache.spark.scheduler.Task.run(Task.scala:89)
    at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
    at java.lang.Thread.run(Thread.java:745)

在上面的代码中，GroupEvolutionES是主类。错误消息显示“必须在您的配置中设置主 URL”，但我已向 spark-submit 提供了“--master”参数。

谁知道如何解决这个问题？

Spark版本:1.6.1

最佳答案

TLDR:

.config("spark.master", "local")

a list of the options for spark.master in spark 2.2.1

在尝试以本地模式运行简单的 Spark SQL java 程序后，我最终来到了此页面。为此，我发现可以使用以下方法设置spark.master:

SparkSession spark = SparkSession
.builder()
.appName("Java Spark SQL basic example")
.config("spark.master", "local")
.getOrCreate();

我的答案更新:

需要明确的是，这不是您在生产环境中应该执行的操作。在生产环境中，spark.master 应该在其他几个位置之一指定:要么在 $SPARK_HOME/conf/spark-defaults.conf (这是 cloudera manager 将放置它的位置)，要么在提交时在命令行上该应用程序。 (前 Spark 提交--主 yarn )。

如果您以这种方式将spark.master指定为“本地”，spark将尝试在单个jvm中运行，如下面的注释所示。如果您随后尝试指定 --deploy-mode cluster，您将收到错误“集群部署模式与主“本地”不兼容”。这是因为设置spark.master=local意味着您没有在集群模式下运行。

相反，对于生产应用程序，在主函数中(或在主函数调用的函数中)，您应该简单地使用:

SparkSession
.builder()
.appName("Java Spark SQL basic example")
.getOrCreate();

这将使用命令行/配置文件中指定的配置。

另外，也要明确这一点:--master 和“spark.master”是完全相同的参数，只是以不同的方式指定。在代码中设置spark.master，就像我上面的回答一样，将覆盖设置--master的尝试，并将覆盖spark-defaults.conf中的值，所以不要在生产中这样做。不过它非常适合测试。

另请参阅 this answer 。链接到 a list of the options for spark.master以及每个人实际上做了什么。

a list of the options for spark.master in spark 2.2.1

关于scala - Spark - 提交应用程序时出现错误 "A master URL must be set in your configuration"，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38008330/

25

4

0

文章推荐： ruby-on-rails - 检查 Rails 中的 Controller 是否存在记录

文章推荐： winforms - 绘制渐变矩形的有效方法

文章推荐： angularjs - 通过 bool 属性过滤 Angular 1.2 ng-repeat "track by"

MySQL MASTER MASTER 复制，添加一个新的 Master 而不会停机
我在 2 个不同的节点中设置了 master-master mysql 复制。假设如果我要再添加一个节点，即 3rd master ，我是否需要在新服务器中拥有与节点 1 和节点 2 中完全相同的数据
Git 分支 : master vs. origin/master 与 remotes/origin/master
我认为我在理解 git 的基本概念方面是正确的。我已经设置并克隆了一个远程存储库。我还创建了一个服务器端空存储库，并将我的本地存储库链接到它。我的问题是我不明白: origin/master 与
replication - Master-Master 复制如何工作？
从概念上讲，Master-Master 复制是如何工作的？我认为碰撞将是一种需要以某种方式解决的常见事件。最佳答案主-主复制(更一般地——多主复制)在概念上的工作原理是假设冲突并不常见，并且只保
mysql master-master 数据复制一致性
众所周知，mysql 是异步复制的。我听说我需要一些额外的插件来做同步复制。那么让我们考虑一下异步复制的情况:master 将事件写入其二进制日志，但不知道 master2 是否或何时检索并处理了
MySql Master-Master 复制导致缺少自增值
我正在寻求有关 MySql Master-Master 配置问题的帮助。我正在处理由另一名员工设置的服务器配置，该员工现在无法就此事提供任何帮助。这是我第一次体验这样的设置，在做了相当多的研究之后，
java - ERROR [main] master.HMasterCommandLine : Master exiting java. lang.RuntimeException: Master 构建失败
尝试使用 HADOOP 运行 HBASE 时出现以下错误HBASE 0.98.xHADOOP 2.4.0 ERROR [main] master.HMasterCommandLine: Mas
apache-spark - 为什么停止独立 Spark master 会失败并显示 "no org.apache.spark.deploy.master.Master to stop"？
停止独立 Spark Master 失败并显示以下消息: $ ./sbin/stop-master.sh no org.apache.spark.deploy.master.Master to sto
git - 在 git 中，在将新代码添加到 master 后，是否可以从 master merge 到最初从 master 创建的分支？
我不确定这是否是一个正常的分支场景，但是...... 假设我从 master 创建一个分支，比如分支 C，然后 merge 回其他先前存在的分支，比如分支 A 和 B，回到 master，然后我需要分
git ! [远程拒绝] master -> master(锁定失败)
我无法推送到我的 git 存储库。 git clone和 git pull工作正常，但 git push不起作用。我检查了其他答案，如 here尝试了几种方法，例如 git push origin
git - 是否可以将更改从 master 创建的分支作为本地更改返回到 master？
所以如果我在 master 中做: git checkout -b my-branch 并在那里做几次提交+推送。然后我做: git checkout master git pull 我现在能以某种方
mysql - Master-Master 复制 auto_increment_offset
我设置了 2 个 MYSQL 服务器: my.cnf server1: auto_increment_increment = 2 auto_increment_offset = 1 my.cnf se
MySQL Master <=(Slave,Master)=> Slave
我想知道一个服务器是否可以同时是slave和master。我们的问题是我们有很多移动单元需要同步到主服务器，但它们只需要主服务器上 100 个表中的 6 个。除了延迟同步和增加数据成本之外，所有额外的
mysql - Master-Master Mysql复制中log-bin文件大小不同
我有主-主 Mysql 复制。每个主控复制其他主控。谁能解释一下为什么该主机上的 log-bin 文件不同？ (尺寸差异很小)。谢谢! 最佳答案嗯。我们决定使用 mysql 5.6 及其功能 - G
iOS Swift Master > Master > Detail？
我正在努力理解这里的逻辑，如果术语不正确，我深表歉意。我正在尝试构建一个功能类似于邮件的应用程序，IE: 所有邮箱 > 特定邮箱 > 消息其中“所有邮箱”和“特定邮箱”占据 Controller
git - 将 master 分支移动到另一个分支并启动新的 master
我一直在使用 master 分支进行开发，并希望将其清除为只有发布提交，以及它的用途。如何将所有内容从 master 复制到开发分支，然后重新启动 master？最佳答案 Create develo
Git rebase/master 从分支更改为 master
两周前，我创建了一个新分支，我们称它为exp。在此期间，exp 和 master 中都有几次提交。在此期间，exp 尚未更新 master 的更改现在我想把所有从 exp 到 master 的更改都
git - ! [远程拒绝] master -> master(权限被拒绝)
我克隆:https://github.com/vy2014/git_lesson.git 然后我做了一些改动，尝试通过命令git push推送到远程服务器，但是错误: Counting objects
git - ! [rejected] master -> master(先获取)
有没有好的方法来解释如何在 Git 中解决“![rejected] master -> master (fetch first)'”？当我使用此命令时 $ git push origin maste
git backout master，推送到分支，稍后进入 master
我该怎么办: 1)恢复推送到主(远程)的更改 2)将这些更改移动到单独的分支 3) 稍后将这些更改移回 master 最佳答案首先做 2)，但前提是你真的需要分支。 git branch chang
git - 分支显示显示 (master-> origin) 而不仅仅是 (master)
符号上有什么区别？在我的一个工作站上，我克隆的 git 存储库显示(master)，而另一个工作站则显示(master -> origin) 我还创建了一个新的本地存储库，提交了一个文本文件，提示仍

首页

博学

6Ren·AI

商城

scala - Spark - 提交应用程序时出现错误 "A master URL must be set in your configuration"