gpt4 book ai didi

python - 使用 pandas.DataFrame.to_parquet 控制行组

转载 作者:行者123 更新时间:2023-12-03 23:49:17 27 4
gpt4 key购买 nike

要将 Parquet 文件读入多个分区,应使用行组进行存储(请参阅 How to read a single large parquet file into multiple partitions using dask/dask-cudf? )。 pandas 文档 describes partitioning of columns , pyarrow documentation describes how to write multiple row groups .使用 Pandas 数据帧 .to_parquet方法,我可以连接写入多个行组的能力,还是总是写入单个分区?如果是,如何?

虽然数据集很小(目前只有3GB),但我想read into multiple partitions这样,使用 dask 的后续处理将使用多个内核(我可以重新分区,但这会产生额外的开销)(我可能会在以后使用大约 10 GB 的数据集,这些数据集仍然很小但对于 RAM 来说太大了)。

最佳答案

您可以简单地提供关键字参数 row_group_size使用pyarrow时。请注意,pyarrow 是默认引擎。

df.to_parquet("filename.parquet", row_group_size=500, engine="pyarrow")

关于python - 使用 pandas.DataFrame.to_parquet 控制行组,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59972588/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com