gpt4 book ai didi

python - Pandas pd.read_csv 不适用于大于 900MB 的 csv 文件

转载 作者:太空宇宙 更新时间:2023-11-04 00:38:01 25 4
gpt4 key购买 nike

我的服务器有 8GB 的​​ RAM,我正在使用 pandas read_csv 函数将 csv 文件读取到数据帧,但对于大于 900MB 的 csv 大小,它执行为“已杀死”。

请任何人帮助我处理这种情况。我附上我的 meminfo 以获得有关如何清除服务器内存的建议 Memory info image

最佳答案

pandas 可以为大文件返回一个迭代器。

import pandas as pd

foo = pd.read_csv('bar.csv', iterator=True, chunksize=1000)

这将返回一个迭代器。然后,您可以使用 for 循环将操作应用于 block 中的数据。因此它不会立即将整个文件读入内存。 block 大小是每个 block 的行数。

它会是这样的:

for chunk in foo:
# do something with chunk

编辑:据我所知,您还必须在 block 中应用像 unique 这样的函数。

import numpy as np
unique_foo = []
for i in df:
unique_foo.append(i['foo'].unique())

unique_foo = np.unique(unique_eff)

关于python - Pandas pd.read_csv 不适用于大于 900MB 的 csv 文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43062324/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com