gpt4 book ai didi

pyspark - 从 Pyspark 中的多个目录读取 Parquet 文件

转载 作者:行者123 更新时间:2023-12-04 09:03:49 24 4
gpt4 key购买 nike

我需要从不是父目录或子目录的多个路径读取 Parquet 文件。

例如,

dir1 ---
|
------- dir1_1
|
------- dir1_2
dir2 ---
|
------- dir2_1
|
------- dir2_2
sqlContext.read.parquet(dir1)从 dir1_1 和 dir1_2 读取 Parquet 文件

现在我正在使用“unionAll”读取每个目录并合并数据帧。
有没有办法从 dir1_2 和 dir2_1 读取 Parquet 文件而不使用 unionAll或者有什么奇特的方法使用 unionAll
谢谢

最佳答案

有点晚了,但我在搜索时发现了这个,它可能会帮助其他人......

您也可以尝试将参数列表解包到 spark.read.parquet()

paths=['foo','bar']
df=spark.read.parquet(*paths)

如果您想将一些 blob 传递到 path 参数中,这很方便:
basePath='s3://bucket/'
paths=['s3://bucket/partition_value1=*/partition_value2=2017-04-*',
's3://bucket/partition_value1=*/partition_value2=2017-05-*'
]
df=spark.read.option("basePath",basePath).parquet(*paths)

这很酷,因为您不需要列出 basePath 中的所有文件,而且您仍然可以获得分区推断。

关于pyspark - 从 Pyspark 中的多个目录读取 Parquet 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37257111/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com