gpt4 book ai didi

azure - 如何从 Blob 存储下载文件

转载 作者:行者123 更新时间:2023-12-02 07:39:34 26 4
gpt4 key购买 nike

我的 Blob 存储中有一个 CSV 文件。我想下载该文件。奇怪的是,我实际上看不到该文件。文件 CSV 由 Python 作业创建并转换为 Scala 数据帧。

当我运行这两行代码时:

# convert python df to spark df and export the spark df
spark_df = spark.createDataFrame(df)
## Write Frame out as Table
spark_df.write.csv("dbfs:/rawdata/corp/AAA.csv")

我收到此错误:

org.apache.spark.sql.AnalysisException: path dbfs:/rawdata/corp/AAA.csv already exists.;

奇怪的是,当我使用 Azure 存储资源管理器时,我看不到该文件。显然该文件存在,即使我看不到它。我怎样才能下载这个 CSV 文件?如果这里有人可以提出更好的选择,我想最好使用 Databricks,或者可能是其他东西。

谢谢。

最佳答案

注意:使用 GUI,您可以下载完整结果(最多 1 百万行)。

enter image description here

要下载完整结果(超过 100 万个),请首先将文件保存到 dbfs,然后使用 Databricks cli 将文件复制到本地计算机,如下所示。

dbfs cp "dbfs:/FileStore/tables/AA.csv" "A:\AzureAnalytics"

引用: Databricks file system

DBFS 命令行界面 (CLI) 使用 DBFS API 向 DBFS 公开易于使用的命令行界面。使用此客户端,您可以使用类似于在 Unix 命令行上使用的命令与 DBFS 进行交互。例如:

# List files in DBFS
dbfs ls
# Put local file ./apple.txt to dbfs:/apple.txt
dbfs cp ./apple.txt dbfs:/apple.txt
# Get dbfs:/apple.txt and save to local file ./apple.txt
dbfs cp dbfs:/apple.txt ./apple.txt
# Recursively put local dir ./banana to dbfs:/banana
dbfs cp -r ./banana dbfs:/banana

引用: Installing and configuring Azure Databricks CLI

希望这有帮助。

关于azure - 如何从 Blob 存储下载文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58379591/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com