gpt4 book ai didi

dataframe - pyspark 列出 s3 存储桶中文件夹的子文件夹

转载 作者:行者123 更新时间:2023-12-03 22:20:57 26 4
gpt4 key购买 nike

我有一个 s3我在其中存储要由我的 pyspark 代码处理的数据文件的存储桶。
我要访问的文件夹是:

s3a://bucket_name/data/

此文件夹包含文件夹。我的目标是访问此目录中最后添加的文件夹的内容。
由于某些原因,我不想使用 boto。
有什么方法可以访问文件夹列表,以便我可以选择我想访问的文件夹。
如果我指定文件夹,我可以访问文件,但我想让它动态。

最佳答案

我建议使用 s3fs,它是 boto3 上的文件系统样式包装器。文档在这里:http://s3fs.readthedocs.io/en/latest/

这是您关心的部分(您可能需要传入或以其他方式配置您的 AWS 凭证):

import s3fs
fs = s3fs.S3FileSystem(anon=True)
fs.ls('my-bucket')

关于dataframe - pyspark 列出 s3 存储桶中文件夹的子文件夹,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/47157393/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com