gpt4 book ai didi

python - Pyspark 与 DBUtils

转载 作者:行者123 更新时间:2023-12-03 05:37:15 26 4
gpt4 key购买 nike

我正在尝试使用 Jupyter Notebook Python 脚本(在 Docker 上运行)中的 DBUtils 和 Pyspark 来访问 Azure Data Lake Blob。但是,我似乎无法识别 dbutils(即 NameError:名称 'dbutils' 未定义)。我尝试过显式导入 DBUtils,也尝试过不导入它:

“要记住的重要一点是永远不要在 Python 脚本中运行 import dbutils。此命令会成功,但会破坏所有命令,因此不会起作用。默认情况下会导入它。” Link

我也尝试过发布的解决方案 here ,但它仍然抛出“KeyError:'dbutils'”

spark.conf.set('fs.azure.account.key.<storage account>.blob.core.windows.net', <storage account access key>)
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "true")
dbutils.fs.ls("abfss://<container>@<storage account>.dfs.core.windows.net/")
spark.conf.set("fs.azure.createRemoteFileSystemDuringInitialization", "false")

有人能解决这个问题吗?

最佳答案

dbutil 仅在 databricks 内受支持。要从非 databricks Spark 环境(例如 Azure 上的 VM 或 HDI-Spark)访问 Blob 存储,您需要修改 core-site.xml 文件。这是一个快速guide用于独立的 Spark 环境。

关于python - Pyspark 与 DBUtils,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/61512772/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com