gpt4 book ai didi

python-3.x - 流式 Parquet 文件 python 和仅下采样

转载 作者:行者123 更新时间:2023-12-03 17:14:26 33 4
gpt4 key购买 nike

我有 Parquet 格式的数据,它太大而无法放入内存(6 GB)。我正在寻找一种使用 Python 3.6 读取和处理文件的方法。有没有办法流式传输文件、下采样并保存到 dataframe ?最终,我想拥有 dataframe 中的数据要使用的格式。

在不使用 spark 框架的情况下尝试执行此操作是否错误?

我试过使用 pyarrowfastparquet但是在尝试读取整个文件时出现内存错误。
任何提示或建议将不胜感激!

最佳答案

对于这项任务,Spark 无疑是一个可行的选择。

我们计划在 pyarrow 中添加流式读取逻辑今年(2019 年,见 https://issues.apache.org/jira/browse/ARROW-3771 及相关问题)。同时,我建议一次读取一个行组以缓解内存使用问题。你可以用 pyarrow.parquet.ParquetFile 来做到这一点和它的 read_row_group方法

关于python-3.x - 流式 Parquet 文件 python 和仅下采样,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54008975/

33 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com