gpt4 book ai didi

python - 用 Pandas 延迟加载 csv

转载 作者:太空狗 更新时间:2023-10-30 01:21:57 26 4
gpt4 key购买 nike

我有一个 22 GB 的巨大 csv 文件,其中包含一个 10000 x 10000 条目的矩阵。但实际上,出于我的目的,我只需要一小部分文件就可以很好地容纳在我的 4 GB 内存中。无论如何,是否可以将 CSV 延迟加载到我的系统,以便我只需要选择文件的一些非传染性部分,比如 25 个不同的特定行。我听说过 pandas 中的 iterator 可以逐段加载数据,但我仍然不确定它的内存需求。

最佳答案

对于少量行,请尝试使用 linecache并手动创建一个 pandas DataFrame。

例如,以下代码将第 12、24 和 36 行(从 1 开始索引)放入 DataFrame。

import linecache
from pandas import DataFrame

filename = "large.csv"
indices = [12,24,36]

li = []
for i in indices:
li.append(linecache.getline(filename, i).rstrip().split(','))

dataframe = DataFrame(li)

关于python - 用 Pandas 延迟加载 csv,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/27717776/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com