gpt4 book ai didi

pandas - 如何将多个目录中的多个 .parquet 文件读入单个 pandas 数据帧?

转载 作者:行者123 更新时间:2023-12-04 00:59:28 26 4
gpt4 key购买 nike

我需要从多个目录读取 parquet 文件。

例如,

 Dir---
|
----dir1---
|
.parquet
.parquet
|
----dir2---
|
.parquet
.parquet
.parquet

有没有办法将这些文件读取到单个 Pandas 数据框?

注意:所有 parquet 文件都是使用 pyspark 生成的。

最佳答案

使用 read_parquet在列表理解和 concatglob 生成的所有文件使用 ** (python 3.5+):

import pandas as pd
import glob

files = glob.glob('Dir/**/*.parquet')
df = pd.concat([pd.read_parquet(fp) for fp in files])

关于pandas - 如何将多个目录中的多个 .parquet 文件读入单个 pandas 数据帧?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59745302/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com