apache-spark - Oozie 的 Spark 提交使用 CDH 5.9.2 中缺少的 ivy 2.4 方法-6ren

apache-spark - Oozie 的 Spark 提交使用 CDH 5.9.2 中缺少的 ivy 2.4 方法

转载作者：行者123 更新时间：2023-12-04 05:20:50

24

4

由于类路径的加载顺序，oozie 工作流启动器有时会失败(KILLED 状态)。在 SparkSubmit 中，存在对 ivy 2.4.0 中方法的调用，但此特定方法不在 ivy 2.0.0-rc2 中。对于大多数每小时的标称时间，工作流过程通常运行良好(成功)，但启动很少失败，因为加载的是 ivy 2.0 而不是 ivy 2.4。失败后，(编辑过的)oozie 启动器日志显示此堆栈调用:

2017-10-31 20:37:30,339 WARN org.apache.oozie.action.hadoop.SparkActionExecutor: SERVER[xxxx-oozie-lv-102.xxx.net] USER[xxxxx] GROUP[-] TOKEN[] APP[xxxx-proc-oozie] JOB[0143924-170929213137940-oozie-oozi-W] ACTION[0143924-170929213137940-oozie-oozi-W@xxxx] Launcher exception: org.apache.ivy.core.module.descriptor.DefaultModuleDescriptor.setDefaultConf(Ljava/lang/String;)V
java.lang.NoSuchMethodError: org.apache.ivy.core.module.descriptor.DefaultModuleDescriptor.setDefaultConf(Ljava/lang/String;)V
    at org.apache.spark.deploy.SparkSubmitUtils$.resolveMavenCoordinates(SparkSubmit.scala:1054)
    at org.apache.spark.deploy.SparkSubmit$.prepareSubmitEnvironment(SparkSubmit.scala:287)
    at org.apache.spark.deploy.SparkSubmit$.submit(SparkSubmit.scala:154)
    at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:121)
    at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)
    at org.apache.oozie.action.hadoop.SparkMain.runSpark(SparkMain.java:264)
    at org.apache.oozie.action.hadoop.SparkMain.run(SparkMain.java:214)
    at org.apache.oozie.action.hadoop.LauncherMain.run(LauncherMain.java:60)
    at org.apache.oozie.action.hadoop.SparkMain.main(SparkMain.java:52)
    at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
    at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at org.apache.oozie.action.hadoop.LauncherMapper.map(LauncherMapper.java:233)
    at org.apache.hadoop.mapred.MapRunner.run(MapRunner.java:54)
    at org.apache.hadoop.mapred.MapTask.runOldMapper(MapTask.java:453)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:343)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:422)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1912)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

Cloudera Distributed Hadoop 似乎包含ivy 2.0.0-rc2，但它的SparkSubmit 似乎需要ivy 2.4.0 版本。我试图在我的 jar 中包含 ivy 2.4 而排除 2.0，但这甚至是在我的进程启动之前(所以这可能有点荒谬)。我认为必须有一种方法可以强制 2.4.0 版本在 oozie 加载过程中具有一定的优先级，并尝试将 oozie.launcher.mapreduce.user.classpath.first 设置为 true 或 false - - 在任何情况下，作业属性文件确实/必须包含:

oozie.libpath=${nameNode}/user/spark/share/XXXX-spark/
oozie.use.system.libpath=true

注意:在上面的 libpath 中删除 ivy 似乎没有什么不同。

It's likely that the workflow needs an extra flag or ... like this:

<configuration>
   <property>
      <name>oozie.launcher.mapreduce.map.java.opts</name>
      <value>-verbose</value>
   </property>
</configuration>

管理集群的团队 (SRE) 更喜欢将原始 jar 与 CDH 5.9.2 一起使用。

我如何通过更改 workflow.xml、作业属性、我的构建或......以满足 SRE 要求以保持 CDH 完整的方式强制 spark-submit 使用 ivy 2.4(而不是 2.0)？我可以通过使缓存无效来解决这个问题吗？

请注意，提到将 ivy 2.4.0 jar 添加到类路径需要一些详细信息，例如将 ivy jar 放在 hdfs 上的确切位置，在某些路径中访问 jar 或......

最佳答案

Cloudera 的 Spark，位于 https://github.com/cloudera/spark/blob/cdh5-1.6.0_5.9.2/pom.xml ，使用 Ivy 2.4.0，但 CDH 发行版附带 Ivy 2.0.0-rc2。

为了解决这个问题，在hdfs folder =/user/oozie/share/lib/lib_{timestamp}/spark中，将ivy 2.0.0-rc2 jar替换为2.4版本(它的名字很奇怪 org.apache.ivy_ivy-2.4.0.jar ...但我认为这不重要)。替换 jar 后，运行 oozie 管理操作(oozie admin -sharelibupdate spark 以刷新/重新扫描此文件夹)，此后启动工作流时，进程启动工作正常。

根据 Samson 的评论，ivy 缓存在一些节点上有所不同，因为稍后添加了新节点，这导致了一个不常见/间歇性的问题。

关于apache-spark - Oozie 的 Spark 提交使用 CDH 5.9.2 中缺少的 ivy 2.4 方法，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47045446/

24

4

0

文章推荐： visual-studio-2010 - Team Foundation Server要求登录凭据

文章推荐： unit-testing - ssis 包中的单元测试数据流

文章推荐：仅使用年份选择器输入Symfony 2日期

hadoop - cdh 包是如何定义的？
我对 cdh 及其维护方式有疑问: 当我转到与特定 cdh 版本相关的包装信息时，我可以检查每个组件的包装版本(例如 cdh 5.5.5 : https://www.cloudera.com/docu
hadoop - CDH HDFS节点退役永无止境
我们有一个 12 台服务器的 hadoop 集群 (CDH)，最近，我们想停用其中的三台，但是这个进程已经在那里运行了 2 天多了。但它永远不会结束，特别是在过去的 24 小时内，我看到三个数据节点上
hadoop - CDH 组件版本号
我安装了一个 CDH 集群并使用了 hadoop 版本，但它只返回了 Hadoop 版本。有没有办法在图形界面上获取所有已安装组件的版本号？例如，哪个命令可以获取 Spark 版本号？最佳答案打
hadoop - 集群 CDH 安装在下载时卡住
我正在尝试使用 Cloudera Manager 在云服务器上的 3 个节点上设置集群。但在集群安装步骤，它卡在 64%。请指导我如何继续它以及在哪里查看相同的日志。以下是安装屏幕的图像最佳答案
cloudera-cdh - impala 对数组和映射的支持
我使用的是 cdh 5.5.1 中的 impala 2.3 据我了解，这个版本应该支持数组和 map 。我有一个包含数组字段的表(请参见下文) 当我尝试使用 CLI 获取此字段时，我得到:选择列表中
hadoop - Cloudera CDH 演示
Datastax DSE 带有组织良好的 demos . Cloudera CDH5 是否提供类似的东西？最佳答案看看 Cloudera Quickstart VM .它(特别是 Hue)包含一些
macos - Cloudera CDH Mac
我参加了一个将使用 Cloudera CDH 和 Hadoop 等的类(class)。类(class)的当前设置涉及使用带有 VirtualBox 的虚拟机。我只是想知道是否有更快、更有效的程序实
hadoop - CDH 5.1主机IP地址变更
我有一个包含 3 个节点的 CDH 5.1 集群。我们使用cloudera manager自动安装来安装它。在我们将盒子移动到不同的网络并更改 IP 地址之前，它一直运行良好。我尝试了以下步骤 1.
cloudera-cdh - 确保 Impala 查询得到具体化
是否有任何可靠且有效的方法来确保 impala 查询结果得到完全具体化，而无需将结果打印到控制台？作为示例，我将使用 INNER JOIN 查询。具体化查询结果的明显方法是创建表作为选择。 CREA
cloudera - 哪个发行版 CDH 与 HDP
我碰巧在 CDH 工作了很长时间(大约 1 年)，并计划重新开始。现在我们有 CDH、HDP 和 Hortonwork 被 Cloudera 收购。 HDP 是否正在积极开发中？还是CDH正在积极开发
cloudera-cdh - 从可移植二进制文件运行 impala 集群
我正在评估多个大数据工具。其中之一当然是Impala。我想通过在集群节点上手动启动进程来启动 Impala 集群。正如我目前为 Spark、H2O、Presto 和 Dask 所做的那样，我想获取二
hadoop - CDH 4.2.0和Ganglia兼容性
我正在使用CDH 4.2.0群集。为了监视群集，我计划安装Ganglia。我发现link表示Ganglia 3.1与hadoop 0.21.0不兼容。有人可以指导我，哪个版本的Ganglia与CDH
python - Cloudera CDH 5群集的mrjob NoFIleFound异常
尝试在hadoop群集上运行mrjob示例时出现此错误。我已经设置了hadoop_home，还可以在hdfs文件系统上创建一个新目录。如果使用hadoop流，则可以运行python map-red
hadoop - 使用命令行(CDH 5)启动Hadoop服务
我知道如何使用Cloudera Manager界面启动服务，但是我更想知道幕后真正发生的事情，而不是依靠“魔术”。我读过this page，但未提供所需信息我知道有一些.sh文件可以使用，但是它们
hadoop - EC2 上的 Cloudera CDH
我是 aws 新手，我正在尝试通过 Cloudera 的 AMI 在 EC2 上运行 Hadoop。我安装了 AMI，下载了 cloudera-haddop-for-ec2-tools，现在我正在尝试
hadoop - Cloudera Manager 有什么替代方案吗？ (CDH)
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。去年关闭。 Improve this
hadoop - 如何为 hadoop 设置服务器？ (CDH)
我正在使用 AWS EC2 运行 3 个实例(m1.small -- 20GB 硬盘和 1.7GB 内存)。集群上会有hadoop、mapReduce和几个监控进程。我是这样拆分的: 1个主服务器
hadoop - CDH 网络接口(interface)速度抑制
我在 myCentOS 7.1 上配置了 CDH 5.5.2。除了以下与网络相关的警告外，一切都运行良好网络接口(interface)速度抑制... 以下网络接口(interface)似乎未全速运行
hbase - CDH Hue 和 Hbase 身份验证
我是 CDH 新手(我使用的当前版本是 5.7.1) 我已经添加了 HBase thrift 角色并在 Hue 中设置，但我仍然遇到以下问题。 HBase Browser Failed to au
ubuntu - Ubuntu 17上的Cloudera CDH 5.x
可以在Ubuntu 17上安装CDH 5.x吗？根据Cloudera网站的说法，他们一直支持到Ubuntu 16。我不熟悉大数据，所以请原谅我的无知。最佳答案 CDH是Cloudera的发行版，包

首页

博学

6Ren·AI

商城

apache-spark - Oozie 的 Spark 提交使用 CDH 5.9.2 中缺少的 ivy 2.4 方法