gpt4 book ai didi

python - 如何使用 pandas 读取大型 csv 文件?

转载 作者:IT老高 更新时间:2023-10-28 12:25:26 25 4
gpt4 key购买 nike

我正在尝试在 pandas 中读取一个大型 csv 文件(大约 6 GB),但出现内存错误:

MemoryError                               Traceback (most recent call last)
<ipython-input-58-67a72687871b> in <module>()
----> 1 data=pd.read_csv('aphro.csv',sep=';')

...

MemoryError:

有什么帮助吗?

最佳答案

错误说明机器没有足够的内存来读取整个一次将 CSV 转换为 DataFrame。假设您不需要整个数据集一次全部存储,避免该问题的一种方法是 process the CSV inchunks (通过指定 chunksize 参数):

chunksize = 10 ** 6
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)

chunksize 参数指定每个 block 的行数。(当然,最后一个 block 可能包含少于 chunksize 行。)


Pandas >= 1.2

read_csvchunksize 返回一个上下文管理器,使用如下:

chunksize = 10 ** 6
with pd.read_csv(filename, chunksize=chunksize) as reader:
for chunk in reader:
process(chunk)

GH38225

关于python - 如何使用 pandas 读取大型 csv 文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25962114/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com