gpt4 book ai didi

python - 如何从 Azure blob 存储将 parquet 文件读入 pandas

转载 作者:行者123 更新时间:2023-12-02 05:56:30 25 4
gpt4 key购买 nike

我需要在运行 Python 3 内核的 Jupyter 笔记本上下文中从 Azure blob 存储读取和写入 parquet 文件。

我看到了严格使用 parquet 文件和 python 的代码以及用于抓取/写入 Azure blob 存储的其他代码,但还没有将它们组合在一起的代码。

这是我正在使用的一些示例代码:

从 azure.storage.blob 导入 BlockBlobService
block_blob_service = BlockBlobService(account_name='testdata', account_key='key-here')
block_blob_service.get_blob_to_text(container_name='mycontainer', blob_name='testdata.parquet')

最后一行抛出一个与编码相关的错误。我玩过storefact但还不够。

感谢您的帮助

最佳答案

要访问该文件,您需要先访问 Azure Blob 存储。

storage_account_name = "your storage account name"
storage_account_access_key = "your storage account access key"

将 parquet 文件的路径读取到变量中

commonLOB_mst_source = "Parquet file path"
file_type = "parquet"

连接到 blob 存储

spark.conf.set(
"fs.azure.account.key."+storage_account_name+".blob.core.windows.net",
storage_account_access_key)

将 Parquet 文件读入数据帧

df = spark.read.format(file_type).option("inferSchema", "true").load(commonLOB_mst_source)

关于python - 如何从 Azure blob 存储将 parquet 文件读入 pandas,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48469709/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com