amazon-ec2 - Spark 工作人员无法在 EC2 集群上找到 JAR-6ren

amazon-ec2 - Spark 工作人员无法在 EC2 集群上找到 JAR

转载作者：行者123 更新时间：2023-12-03 18:03:45

25

4

我正在使用 spark-ec2 来运行一些 Spark 代码。当我将 master 设置为
“本地”，然后它运行良好。但是，当我将 master 设置为 $MASTER 时，
worker 立即失败， java.lang.NoClassDefFoundError 为
类(class)。 worker 连接到 master，并显示在 UI 中，并尝试运行任务；但是一旦它加载了它的第一个依赖类(它在程序集 jar 中)，就会立即引发该异常。

我已经使用 sbt-assembly 用类制作了一个 jar ，确认使用
jar tvf 类在那里，并将 SparkConf 设置为分发
类(class)。 Spark Web UI 确实将程序集 jar 显示为
添加到类路径:
http://172.x.x.x47441/jars/myjar-assembly-1.0.jar

看来，尽管 myjar-assembly 包含
类，并且正在被添加到集群中，它没有到达
worker 。我该如何解决？ (我需要手动复制jar文件吗？
如果是这样，到哪个目录？我认为 SparkConf 添加的点
jars 是自动执行此操作)

我的调试尝试表明:

正在将程序集 jar 复制到/root/spark/work/app-xxxxxx/1/
(由 ssh 到 worker 并搜索 jar 确定)

但是，该路径不会出现在工作人员的类路径中
(根据日志确定，显示 java -cp 但缺少该文件)

所以，似乎我需要告诉 Spark 将路径添加到程序集
jar 到 worker 的类路径。我怎么做？还是有另一个罪魁祸首？ (我花了几个小时试图调试它，但无济于事!)

最佳答案

注意:EC2 特定的答案，而不是一般的 Spark 答案。只是想对一年前提出的一个问题做一个完整的回答，这个问题有相同的症状，但通常是不同的原因，让很多人绊倒。

如果我正确理解了这个问题，你会问，“我需要手动复制 jar 文件吗？如果是，复制到哪个目录？”你说，“并设置 SparkConf 来分发类”，但你不清楚这是通过 spark-env.sh 还是 spark-defaults.conf 完成的？所以做一些假设，主要是你在集群模式下运行，这意味着你的驱动程序在其中一个工作人员上运行，你不知道是哪一个......然后......

答案是肯定的，对于在类路径中命名的目录。在 EC2 中，唯一的持久数据存储是/root/persistent-hdfs，但我不知道这是否是个好主意。

In the Spark docs on EC2 I see this line :

To deploy code or data within your cluster, you can log in and use
the provided script ~/spark-ec2/copy-dir, which, given a directory 
path, RSYNCs it to the same location on all the slaves.

SPARK_CLASSPATH
我不会使用 SPARK_CLASSPATH 因为它从 Spark 1.0 开始被弃用所以一个好主意是在 $SPARK_HOME/conf/spark-defaults.conf 中使用它的替代品:

spark.executor.extraClassPath /path/to/jar/on/worker

这应该是有效的选项。如果您需要即时执行此操作，而不是在 conf 文件中，建议是“./spark-submit with --driver-class-path 以增加驱动程序类路径”( from Spark docs about spark.executor.extraClassPath 并查看另一个答案的结尾来源)。

但是......你没有使用spark-submit......我不知道它在EC2中是如何工作的，查看脚本我没有弄清楚EC2让你在命令行上提供这些参数的位置。您提到您在设置 SparkConf 对象时已经这样做了，所以如果这对您有用，请坚持下去。

我在 Spark 年看到这是一个非常古老的问题，所以我想知道你是如何解决它的？我希望这对某人有所帮助，我在研究 EC2 的细节方面学到了很多东西。

我必须承认，作为对此的限制，它让我在 Spark docs that for spark.executor.extraClassPath 中感到困惑。它说:

Users typically should not need to set this option

我认为这意味着大多数人会通过驱动程序配置选项获取类路径。我知道 spark-submit 的大多数文档都应该像脚本一样处理在集群中移动你的代码，但我认为这只是在我假设你没有使用的“独立客户端模式”中，我认为 EC2 必须处于“独立”集群模式。”

更多/关于 SPARK_CLASSPATH 弃用的背景:

更多让我想到 SPARK_CLASSPATH is deprecated is this archived thread. 的背景和 this one, crossing the other thread和 this one about a WARN message when using SPARK_CLASSPATH :

14/07/09 13:37:36 WARN spark.SparkConf:
SPARK_CLASSPATH was detected (set to 'path-to-proprietary-hadoop-lib/*:
/path-to-proprietary-hadoop-lib/lib/*').
This is deprecated in Spark 1.0+.

Please instead use:
 - ./spark-submit with --driver-class-path to augment the driver classpath
 - spark.executor.extraClassPath to augment the executor classpath

关于amazon-ec2 - Spark 工作人员无法在 EC2 集群上找到 JAR，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23687081/

25

4

0

文章推荐： objective-c - 如何将 NSLevelIndicatorCell 重置为 0？

文章推荐： cocoa - 在 Mac OS X 应用程序中使用网络代理

spring-boot - 如果在同一个 Jar 中，为什么 Jars in Jars 不能看到 Jars 中其他 Jars 的内容？
tl;博士:我们的 Spring Boot jar 中的类似乎可以看到捆绑的 jar 中的类，但它们的内容似乎无法看到。为什么？我们的主要产品是一个网络应用程序，但所有的业务逻辑都集中在一个核心 m
jar - MR-Jars 可以覆盖其他 jar 中的类吗？
我有一个适用于 Java 8 的 jar。我想创建一个新 jar，它将是多版本 JAR 但为空，只有 META-INF/versions 中的“修补”类. 我想要一个单独的 jar，这样人们就可以在
java - 将 API .JAR 合并到我的 .JAR 应用程序中时遇到问题。 JAR 中的 JAR
免责声明: 在我得到“这个问题已经被问了 1000 次”的标准之前，让我说，是的，我知道。我读了又读又读。看了 JarJar 和 One-JAR，但问题是:我是自学成才的，只有几个月的经验，而且我不熟
Java Jar 将多个 jar 组合成一个可执行 Jar
我知道要组合多个 jar 并创建一个可执行 jar，我需要使用像 OneJar 这样的工具如果我不想解压相关的 jar 。 OneJar 有自己的自定义类加载器，可以在关联的 jar 中找到所需的类并
java - 如何在 Eclipse IDE 项目中将 a.jar、b.jar、c.jar、d.jar 合并到一个名为 e.jar 的 jar 中？你能告诉我们执行此操作的步骤吗？
在我的项目中，我使用许多 jar 文件来支持该项目。随着 jar 文件数量的增加，我想将所有 jar 文件移动到一个 jar 中并利用它。您能给我提供有用的链接吗？可以帮助我做到这一点。最佳答案有
jar - 删除目录中的重复 jar
我有一个脚本可以删除目录中的低版本 jars 文件。 #!/bin/bash #Script to remove lower version jar files. for PREFIX in `ls
jar - 如何以编程方式重新启动 jar？
可执行 jar 文件可以自行重启吗？例如，在用户做出一些选择后，程序会说“重新启动应用程序？”并且用户单击"is"，然后 jar 关闭并自行重新启动。最佳答案需要重新启动应用程序是糟糕设计的标志。
jar - .jar 文件根本打不开
过去两年我一直有这个问题。我有一个从 Internet 下载的 .jar 文件。它应该是一个魔方计时器。当我双击这个 .jar 文件时，没有任何反应。如果我将 .jar 文件设置为使用 java.
jar - Gradle项目依赖项未引用SNAPSHOT jar
我正在尝试在多项目Gradle构建中创建一个胖jar文件，如下所示: root +-- project1 +-- project2 project1提供了基本功能，然后project2将其用于
java - 如何以 jar 格式获得一个包含该 jar 内依赖项的最终 jar？
我需要 Maven 的配置，其中项目内的所有库都以 jar 格式保存在最终的 jar 中...所以我需要在最终的 jar 中包含 jar。为此我只能使用maven。我已经尝试过像 one-jar 这样
java - JAR、Fat JAR、可执行 JAR 之间的区别
JAR、Fat JAR 和 Executable JAR 之间有什么区别？它们是如何从命令行和 gradle.build 任务创建的(如果是 gradle 项目)？除了上面提到的以外，还有其他的JA
java - Maven 插件创建可执行 jar 与未解压的依赖项 (jar with jars)
我阅读了很多构建具有依赖项的可执行 jar 的解决方案(maven 阴影插件、maven 依赖项插件、maven 程序集插件)和所有这些插件解压依赖项 jar 并将它们重新打包到可执行 jar 中。唯
java - "java $SOME_ENV_VAR -jar application.jar"和 "java -jar $SOME_ENV_VAR application.jar"之间的区别
我想问一下java命令中-jar选项前后传递参数有什么区别。考虑 $SOME_ENV_VAR=-Dinstance=qa 最佳答案取决于SOME_ENV_VAR的内容；假设它包含有效的命令行参数，例
jar - Leiningen:创建可执行 jar 以在没有 java -jar 的情况下运行
我试图了解如何打包用 Clojure 编写的命令行应用程序进行分发。我不希望用户不得不使用 java -jar myproject.jar arg1 arg2运行程序。 PHP 有一个叫做“Phar”
jar - gradle - 如何构建一个带有 lib 目录和其他 jar 的 jar？
在 gradle 中 - 如何将 jar 嵌入到 lib 中的构建输出 jar 中目录(特别是 lib/enttoolkit.jar 和 lib/mail.jar)？最佳答案如果您的项目中的一个目
java - javadoc.jar、sources.jar 和 .jar 之间有什么区别？
查看 Google gson 2.8.5 ，我看到这里分发了几个 jar https://repo1.maven.org/maven2/com/google/code/gson/gson/2.8.5/
java - 在 JAR 中包含 JAR 会使类看不到 jar 内容
我正在将 jar 文件和一个主类合并到一个 jar 中。问题是我的主类使用这些 jar ，如果它在一个 jar 中，它就会抛出找不到类定义。如何让类(class)看到 jar 里的 jar ？最佳答
java - 在制作项目 jar 时包含一些 jar 并排除其他 jar 吗？
我正在使用 Maven 进行开发。我有一个要求，我想在我的项目 jar 中包含一些第三方 jar 并排除 pom.xml 文件中指定的其他 jar。下面是我的 pom.xml 文件。 4.0.0 c
java - 你能在一个 jar 文件中添加多个 jar 然后启动那个 jar 文件吗
我正在开发一个 GUI 应用程序，宁愿只分发一个 jar 而不是多个。你能用 list 来控制它吗？最佳答案另一种选择是使用自定义类加载器，例如这个: http://one-jar.source
java - : api. jar + impl.jar + bundle.jar 的用途是什么？
我看到许多 Java 包都有 api、impl 和 bundle jar(name-api.jar、name-impl.jar、name-bundle.jar)。有人可以解释这些是什么意思吗？应用程序

首页

博学

6Ren·AI

商城

amazon-ec2 - Spark 工作人员无法在 EC2 集群上找到 JAR