gpt4 book ai didi

azure - 尝试使用 PySpark 从 ADLS Gen2 读取 csv 时,没有方案 "az"的文件系统错误

转载 作者:行者123 更新时间:2023-12-03 06:34:10 34 4
gpt4 key购买 nike

import pandas as pd
import pyspark.pandas as ps

我正在尝试使用 pyspark pandas api 来比较两个相似脚本之间的性能(一个使用 pandas,一个通过 pandas 界面使用 pyspark)。但是,我在从 ADLS Gen 2 存储将数据导入 pyspark 时遇到问题。

当我运行以下代码时,它按预期工作:

df_pandas = pd.read_csv(f"az://container/path/to/file.csv",sep=';', dtype=str)

但是,当我使用 pyspark pandas api 运行相同的操作时:

df_spark = ps.read_csv(f"az://container/path/to/file.csv",sep=';', dtype=str)

但是,当我运行此命令时,会引发以下错误:

Py4JJavaError: An error occurred while calling o1840.load.
: org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "az"

我在网上查了一下,发现其他人在使用 AWS 时也遇到类似问题,但我不知道如何在 Azure 上解决这个问题。我尝试用 abfs 替换 az 但随后出现错误:

An error occurred while calling o1852.load.
: abfs://container/path/to/file.csv has invalid authority.

顺便说一句,我是从 Azure Synapse 笔记本运行这些的。

最佳答案

我在环境中重现了相同的结果。我得到了这个输出。

Reading csv files from ADLS Gen2.

代码:

import pandas 
df = pandas.read_csv('abfss://<container_name>@<storage_account_name>.dfs.core.windows.net/<file_path>', storage_options = {'account_key' : 'account_key_value'})

输出:

enter image description here

有关更多信息,请参阅此 link1link2 .

关于azure - 尝试使用 PySpark 从 ADLS Gen2 读取 csv 时,没有方案 "az"的文件系统错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/75056695/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com