gpt4 book ai didi

python - 使用 Pandas 推荐读取大型文本文件?

转载 作者:行者123 更新时间:2023-12-01 08:11:08 26 4
gpt4 key购买 nike

我正在将一个 25GB 的大型 csv 文件读取到 pandas.DataFrame 中。我的电脑规范是:

  • 英特尔酷睿 i7-8700 3.2GHz
  • 内存16G
  • Windows 10
  • DataFrame.shape =144,000,000 行 x 13 列
  • 磁盘上的 csv 文件大小为 24GB

读取此文件有时需要很长时间,例如 20 分钟。在代码方面有什么建议可以让我做得更好吗?

*注意:这个 DF 是完整需要的,因为我要与另一个 DF 合并(合并)。

最佳答案

您可以使用dask.dataframe :

import dask.dataframe as dd # import dask.dataframe
df = dd.read_csv('filename.csv') # read csv

或者你可以使用chunking :

def chunk_processing(): # define a function that you will use on chunks
## Do Something # your function code here


chunk_list = [] # create an empty list to hold chunks
chunksize = 10 ** 6 # set chunk size
for chunk in pd.read_csv('filename.csv', chunksize=chunksize): # read in csv in chunks of chunksize
processed_chunk = chunk_processing(chunk) # process the chunks with chunk_processing() function
chunk_list.append(processed_chunk) # append the chunks to a list
df_concat = pd.concat(chunk_list) # concatenate the list to a dataframe

关于python - 使用 Pandas 推荐读取大型文本文件?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55246200/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com