gpt4 book ai didi

csv - 将 Spark CSV 依赖项添加到 Zeppelin

转载 作者:行者123 更新时间:2023-12-04 19:27:57 25 4
gpt4 key购买 nike

我正在 AWS 上运行带有 Spark 集群的 EMR。Spark版本为1.6

运行以下命令时:

proxy = sqlContext.read.load("/user/zeppelin/ProxyRaw.csv", 
format="com.databricks.spark.csv",
header="true",
inferSchema="true")

我收到以下错误:

Py4JJavaError: An error occurred while calling o162.load. : java.lang.ClassNotFoundException: Failed to find data source: com.databricks.spark.csv. Please find packages at http://spark-packages.org at org.apache.spark.sql.execution.datasources.ResolvedDataSource$.lookupDataSource(ResolvedDataSource.scala:77)

我该如何解决这个问题?我认为我应该添加一个包,但是如何安装它以及在哪里安装?

最佳答案

在 Zeppelin 中添加包的方法有很多种:

  1. 其中之一是实际更改 conf/zeppelin-env.sh 配置文件,添加您需要的包,例如 com.databricks:spark-csv_2.10:1.4 .0 在您的情况下添加到提交选项,因为 Zeppelin 在后台使用 spark-submit 命令:

    export SPARK_SUBMIT_OPTIONS="--packages com.databricks:spark-csv_2.10:1.4.0"
  2. 但是假设您实际上无权访问这些配置。然后,您可以使用通过 %dep 解释器进行动态依赖加载(已弃用):

    %dep
    z.load("com.databricks:spark-csv_2.10:1.4.0")

    这将要求您在启动或重新启动解释器之前加载依赖项。

  3. 另一种方法是通过解释器依赖项管理器添加所需的依赖项,如以下链接所述:Dependency Management for Interpreter .

关于csv - 将 Spark CSV 依赖项添加到 Zeppelin,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40406176/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com