gpt4 book ai didi

python - DASK : How to read CSV files into a DataFrame from Microsoft Azure Blob

转载 作者:行者123 更新时间:2023-11-28 18:17:02 33 4
gpt4 key购买 nike

S3Fs 是 S3 的 Pythonic 文件接口(interface),DASK 是否有任何与 Azure Storage Blob 的 Pythonic 接口(interface)。适用于 Azure 存储 Blob 的 Python SDK 提供了读取和写入 Blob 的方法,但该接口(interface)要求将文件从云端下载到本地计算机。我正在寻找读取 blob 以支持 DASK 并行读取为流或字符串的解决方案,无需保留到本地磁盘

最佳答案

我在这里新推送了代码:https://github.com/dask/dask-adlfs

您可以从该位置进行 pip 安装,尽管您可能最好先通过 conda 安装需求(dask、cffi、oauthlib)。在 python session 中,执行 import dask_adlfs 将足以向 Dask 注册后端,这样您就可以将 azure URL 与 dask 函数一起使用,例如:

import dask.dataframe as dd
df = dd.read_csv('adl://mystore/path/to/*.csv', storage_options={
tenant_id='mytenant', client_id='myclient',
client_secret='mysecret'})

由于此代码是全新且未经测试的,因此可能会有一些粗糙的地方。运气好的话,您可以帮助解决这些问题。

关于python - DASK : How to read CSV files into a DataFrame from Microsoft Azure Blob,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47741801/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com