gpt4 book ai didi

apache-spark - 如何使用 --packages 为 spark-submit 指定多个依赖项?

转载 作者:行者123 更新时间:2023-12-03 11:48:45 25 4
gpt4 key购买 nike

我将以下内容作为启动 Spark 流作业的命令行。

    spark-submit --class com.biz.test \
--packages \
org.apache.spark:spark-streaming-kafka_2.10:1.3.0 \
org.apache.hbase:hbase-common:1.0.0 \
org.apache.hbase:hbase-client:1.0.0 \
org.apache.hbase:hbase-server:1.0.0 \
org.json4s:json4s-jackson:3.2.11 \
./test-spark_2.10-1.0.8.jar \
>spark_log 2>&1 &

作业无法启动并出现以下错误:
Exception in thread "main" java.lang.IllegalArgumentException: Given path is malformed: org.apache.hbase:hbase-common:1.0.0
at org.apache.spark.util.Utils$.resolveURI(Utils.scala:1665)
at org.apache.spark.deploy.SparkSubmitArguments.parse$1(SparkSubmitArguments.scala:432)
at org.apache.spark.deploy.SparkSubmitArguments.parseOpts(SparkSubmitArguments.scala:288)
at org.apache.spark.deploy.SparkSubmitArguments.<init>(SparkSubmitArguments.scala:87)
at org.apache.spark.deploy.SparkSubmit$.main(SparkSubmit.scala:105)
at org.apache.spark.deploy.SparkSubmit.main(SparkSubmit.scala)

我试过删除格式并返回到一行,但这并不能解决问题。我还尝试了很多变体:不同的版本,添加了 _2.10到 artifactId 的末尾,等等。

根据文档( spark-submit --help ):

The format for the coordinates should be groupId:artifactId:version.



所以我所拥有的应该是有效的并且应该引用 this package .

如果有帮助,我正在运行 Cloudera 5.4.4。

我究竟做错了什么?如何正确引用 hbase 包?

最佳答案

例如,应使用逗号分隔包列表,而不要使用空格(换行应该可以正常工作)

--packages  org.apache.spark:spark-streaming-kafka_2.10:1.3.0,\
org.apache.hbase:hbase-common:1.0.0

关于apache-spark - 如何使用 --packages 为 spark-submit 指定多个依赖项?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/33928029/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com