gpt4 book ai didi

azure - Spark-Shell错误: No FileSystem for scheme: wasb

转载 作者:可可西里 更新时间:2023-11-01 14:27:33 25 4
gpt4 key购买 nike

我们在 Azure 中运行 HDInsight 群集,但它不允许在创建群集时启动边缘/网关节点。所以我通过安装创建这个边缘/网关节点

echo 'deb http://private-repo-1.hortonworks.com/HDP/ubuntu14/2.x/updates/2.4.2.0 HDP main' >> /etc/apt/sources.list.d/HDP.list
echo 'deb http://private-repo-1.hortonworks.com/HDP-UTILS-1.1.0.20/repos/ubuntu14 HDP-UTILS main' >> /etc/apt/sources.list.d/HDP.list
echo 'deb [arch=amd64] https://apt-mo.trafficmanager.net/repos/azurecore/ trusty main' >> /etc/apt/sources.list.d/azure-public-trusty.list
gpg --keyserver pgp.mit.edu --recv-keys B9733A7A07513CAD
gpg -a --export 07513CAD | apt-key add -
gpg --keyserver pgp.mit.edu --recv-keys B02C46DF417A0893
gpg -a --export 417A0893 | apt-key add -
apt-get -y install openjdk-7-jdk
export JAVA_HOME=/usr/lib/jvm/java-7-openjdk-amd64
apt-get -y install hadoop hadoop-hdfs hadoop-yarn hadoop-mapreduce hadoop-client openssl libhdfs0 liblzo2-2 liblzo2-dev hadoop-lzo phoenix hive hive-hcatalog tez mysql-connector-java* oozie oozie-client sqoop flume flume-agent spark spark-python spark-worker spark-yarn-shuffle

然后我复制了 /usr/lib/python2.7/dist-packages/hdinsight_common/ /usr/share/java/ /usr/lib/hdinsight-datalake/ /etc/spark/conf/ /etc/hadoop/conf/

但是当我运行 spark-shell 时,出现以下错误

java.io.IOException: No FileSystem for scheme: wasb

这是完整的堆栈 https://gist.github.com/anonymous/ebb6c9d71865c9c8e125aadbbdd6a5bc

我不确定这里缺少哪个包/jar。

有人知道我做错了什么吗?

谢谢

最佳答案

在 Spark-Shell 中设置 Azure 存储(wasb 和 wasbs 文件)的另一种方法是:

  1. 将 azure-storage 和 hadoop-azure jar 复制到 Spark 安装的 ./jars 目录中。
  2. 使用参数 —jars [以逗号分隔的列表,其中包含指向这些 jar 的路由] 运行 Spark-shell 示例:


    $ bin/spark-shell --master "local[*]" --jars jars/hadoop-azure-2.7.0.jar,jars/azure-storage-2.0.0.jar
  3. 将以下行添加到 Spark 上下文:


    sc.hadoopConfiguration.set("fs.azure", "org.apache.hadoop.fs.azure.NativeAzureFileSystem")
    sc.hadoopConfiguration.set("fs.azure.account.key.my_account.blob.core.windows.net", "my_key")
  4. 运行一个简单的查询:


    sc.textFile("wasb://my_container@my_account_host/myfile.txt").count()
  5. 享受吧:)

通过此设置,您可以轻松设置 Spark 应用程序,将参数传递到当前 Spark 上下文上的“hadoopConfiguration”

关于azure - Spark-Shell错误: No FileSystem for scheme: wasb,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38254771/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com