gpt4 book ai didi

python - 由于耗尽了所有 RAM,将大量 Pandas df 文本数据保存到磁盘会导致 Colab 崩溃。有解决方法吗?

转载 作者:行者123 更新时间:2023-12-01 00:54:02 27 4
gpt4 key购买 nike

我有一个非常大的 Pandas 数据框,我想将其保存到磁盘以供以后使用。数据帧仅包含字符串数据。

但是,无论我使用什么格式,保存过程都会导致我的 Google Colab 环境崩溃,因为它耗尽了除 CSV 之外的所有可用 RAM,甚至在 5 小时后也无法完成。

但这也会破坏环境。

是否有解决方法可以将大型文本 pandas 数据帧保存到磁盘?

我尝试过to_jsonto_featherto_parquetto_pickle,它们都会使环境崩溃。

我还尝试使用to_sql

from sqlalchemy import create_engine
engine = sqlalchemy.create_engine("sqlite:///database.db")
df.to_sql("table", engine)

我想在合理的时间内将我的数据帧保存到磁盘而不破坏环境。

最佳答案

使用带有适当数字的chunksize参数,例如

df.to_csv('filename.csv', chunksize=100000)

这告诉 Python 将数据一次转换为 .csv 100000 行,而不是在将数据帧转储到磁盘之前将其整个第二个副本存储在 RAM 中。

.to_sql 类似:Pandas 会批量写入,而不是一次写入所有内容。

关于python - 由于耗尽了所有 RAM,将大量 Pandas df 文本数据保存到磁盘会导致 Colab 崩溃。有解决方法吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56352711/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com