gpt4 book ai didi

python - 将数据从 S3 加载到 dask 数据帧

转载 作者:太空宇宙 更新时间:2023-11-04 08:29:24 24 4
gpt4 key购买 nike

只有在公开文件后将“anon”参数更改为 True,我才能加载数据。

df = dd.read_csv('s3://mybucket/some-big.csv',  storage_options = {'anon':False})

由于显而易见的原因,不推荐这样做。如何安全地从 S3 加载数据?

最佳答案

从 s3 加载数据的后端是 s3fs,它有一个关于凭证的部分 here ,它主要指向 boto3 的文档。

简短的回答是,有许多方法可以提供 S3 凭证,其中一些是自动的(位于正确位置的文件,或环境变量 - 所有工作人员都必须可以访问,或集群元数据服务)。

或者,您可以直接在调用中提供您的 key / secret ,但这当然必须意味着您信任您的执行平台和工作人员之间的通信

df = dd.read_csv('s3://mybucket/some-big.csv',  storage_options = {'key': mykey, 'secret': mysecret})

可以在 API docs 中找到使用 s3fs 时可以在 storage_options 中传递的参数集.

一般引用 http://docs.dask.org/en/latest/remote-data-services.html

关于python - 将数据从 S3 加载到 dask 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54177687/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com