gpt4 book ai didi

pandas - 有没有办法像 Pyspark 那样将 Pandas 数据保存在多个(parquet/csv)文件中?

转载 作者:行者123 更新时间:2023-12-02 19:43:25 24 4
gpt4 key购买 nike

我有大型 pandas 数据框,我需要将其保存到多个(parquet/csv)文件中以减少文件的体积空间。

我可以通过将数据帧划分为多个数据帧并单独保存每个数据帧来划分它

有没有办法直接做到这一点?

最佳答案

这是我经常使用的一个简单函数:

def df_to_parquets(df, chunk_size=10):
"""
Saves pandas dataframe to parquet in chunks
"""

grp = df.groupby(df.index // chunk_size)
for index, (name, group) in enumerate(grp):
group.to_parquet(f'file_{index}.gzip', compression='gzip')

示例数据

df = pd.DataFrame(np.random.rand(10, 5), columns = ['col_'+str(x) for x in range(1, 6)])

df_to_parquets(df, chunk_size=2)

这将输出 5 个不同的 parquet 文件。

关于pandas - 有没有办法像 Pyspark 那样将 Pandas 数据保存在多个(parquet/csv)文件中?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59770311/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com