gpt4 book ai didi

Azure Blob 存储 Spark

转载 作者:行者123 更新时间:2023-12-02 20:21:07 29 4
gpt4 key购买 nike

我正在尝试将 Spark 连接到 azure blob 存储 (wasbs)。我在 hadoop 类路径中添加以下 jars

com.microsoft.azure_azure-storage-7.0.0.jar
org.apache.hadoop_hadoop-annotations-3.1.2.jar
org.apache.hadoop_hadoop-auth-3.1.2.jar
org.apache.hadoop_hadoop-azure-3.1.2.jar
org.apache.hadoop_hadoop-common-3.1.2.jar
org.eclipse.jetty_jetty-http-9.3.24.v20180605.jar
org.eclipse.jetty_jetty-io-9.3.24.v20180605.jar
org.eclipse.jetty_jetty-security-9.3.24.v20180605.jar
org.eclipse.jetty_jetty-server-9.3.24.v20180605.jar
org.eclipse.jetty_jetty-servlet-9.3.24.v20180605.jar
org.eclipse.jetty_jetty-webapp-9.3.24.v20180605.jar
org.eclipse.jetty_jetty-xml-9.3.24.v20180605.jar

我尝试使用spark-submit:

spark-submit --class mainClass --jars jars/org.apache.hadoop_hadoop-azure-3.1.2.jar,jars/com.microsoft.azure_azure-storage-7.0.0.jar,jars/org.apache.hadoop_hadoop-common-3.1.2.jar myjar.jar

我得到以下异常:

Exception in thread "main" java.lang.NoClassDefFoundError: org/eclipse/jetty/util/ajax/JSON$Convertor

如果我从spark-submit --jars中删除hadoop-commons,我会得到:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/StreamCapabilities

如果我添加 --jars jars/* 来包含所有 jar 文件以及我得到的 jetty-utils

java.lang.ClassNotFoundException: my.package.MainClass

我看到类似的帖子表明了jetty的多个版本,但我在任何地方都找不到其他版本。

最佳答案

对于第一个异常(exception),您缺少 jetty util

https://mvnrepository.com/artifact/org.eclipse.jetty/jetty-util/9.3.24.v20180605

您应该验证 hadoop classpath 返回您想要的内容

对于其余异常,您应该验证是否可以在每个潜在的 Spark 执行器上运行 hadoop fs - ls wasb://path

关于Azure Blob 存储 Spark,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60429298/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com