gpt4 book ai didi

python - PYSPARK - 如何读取 S3 中所有子文件夹中的所有 csv 文件?

转载 作者:行者123 更新时间:2023-12-01 07:56:26 25 4
gpt4 key购买 nike

在 Amazon S3 中,我有一个包含大约 30 个子文件夹的文件夹,每个子文件夹中都包含一个 csv 文件。

我想要一种简单的方法来从所有子文件夹中读取每个 csv 文件 - 目前,我可以通过指定路径 n 次来做到这一点,但我觉得必须有一种更简洁的方法。

例如dataframe = sqlContext.read.csv([路径1、路径2、路径3等..], header=True)

最佳答案

像这样模拟您的情况(使用 jupyter magic 命令,以便您可以看到文件夹结构)

...只需使用 * ...同时假设每个 csv 具有相同的列数

! ls sub_csv/
print("="*10)
! ls sub_csv/csv1/
! ls sub_csv/csv2/
! ls sub_csv/csv3/
print("="*10)
! cat sub_csv/csv1/*.csv
! cat sub_csv/csv2/*.csv
! cat sub_csv/csv3/*.csv

csv1
csv2
csv3
==========
csv1.csv
csv2.csv
csv3.csv
==========
id
1
id
2
id
3

spark\
.read\
.option("header", "true")\
.csv("sub_csv/*")\
.show()

+---+
| id|
+---+
| 1|
| 2|
| 3|
+---+

关于python - PYSPARK - 如何读取 S3 中所有子文件夹中的所有 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55953422/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com