gpt4 book ai didi

python - 如何连接多个 pandas.DataFrames 而不会遇到 MemoryError

转载 作者:IT老高 更新时间:2023-10-28 21:05:49 28 4
gpt4 key购买 nike

我尝试连接三个 DataFrame。

concat_df = pd.concat([df1, df2, df3])

这会导致 MemoryError。我该如何解决这个问题?

请注意,现有的大多数类似问题都是关于读取大文件时发生的 MemoryErrors。我没有那个问题。我已将我的文件读入 DataFrames。我只是无法连接这些数据。

最佳答案

问题是,就像在其他答案中看到的那样,是一个内存问题。一个解决方案是将数据存储在磁盘上,然后构建一个唯一的数据框。

拥有如此庞大的数据,性能是个问题。

csv 解决方案非常慢,因为会在文本模式下进行转换。由于使用二进制模式,HDF5 解决方案更短、更优雅、更快。我提出了二进制模式的第三种方式,pickle ,这似乎更快,但更具技术性并且需要更多空间。第四个,手动。

代码如下:

import numpy as np
import pandas as pd
import os
import pickle

# a DataFrame factory:
dfs=[]
for i in range(10):
dfs.append(pd.DataFrame(np.empty((10**5,4)),columns=range(4)))

# a csv solution
def bycsv(dfs):
md,hd='w',True
for df in dfs:
df.to_csv('df_all.csv',mode=md,header=hd,index=None)
md,hd='a',False
#del dfs
df_all=pd.read_csv('df_all.csv',index_col=None)
os.remove('df_all.csv')
return df_all


更好的解决方案:

def byHDF(dfs):
store=pd.HDFStore('df_all.h5')
for df in dfs:
store.append('df',df,data_columns=list('0123'))
#del dfs
df=store.select('df')
store.close()
os.remove('df_all.h5')
return df

def bypickle(dfs):
c=[]
with open('df_all.pkl','ab') as f:
for df in dfs:
pickle.dump(df,f)
c.append(len(df))
#del dfs
with open('df_all.pkl','rb') as f:
df_all=pickle.load(f)
offset=len(df_all)
df_all=df_all.append(pd.DataFrame(np.empty(sum(c[1:])*4).reshape(-1,4)))

for size in c[1:]:
df=pickle.load(f)
df_all.iloc[offset:offset+size]=df.values
offset+=size
os.remove('df_all.pkl')
return df_all

对于同构数据帧,我们可以做得更好:

def byhand(dfs):
mtot=0
with open('df_all.bin','wb') as f:
for df in dfs:
m,n =df.shape
mtot += m
f.write(df.values.tobytes())
typ=df.values.dtype
#del dfs
with open('df_all.bin','rb') as f:
buffer=f.read()
data=np.frombuffer(buffer,dtype=typ).reshape(mtot,n)
df_all=pd.DataFrame(data=data,columns=list(range(n)))
os.remove('df_all.bin')
return df_all

还对(少量,32 Mb)数据进行了一些测试,以比较性能。对于 4 Gb,您必须乘以大约 128。

In [92]: %time w=bycsv(dfs)
Wall time: 8.06 s

In [93]: %time x=byHDF(dfs)
Wall time: 547 ms

In [94]: %time v=bypickle(dfs)
Wall time: 219 ms

In [95]: %time y=byhand(dfs)
Wall time: 109 ms

支票:

In [195]: (x.values==w.values).all()
Out[195]: True

In [196]: (x.values==v.values).all()
Out[196]: True

In [197]: (x.values==y.values).all()
Out[196]: True



当然,所有这些都必须改进和调整以适应您的问题。

例如 df3 可以分成大小为“total_memory_size - df_total_size”的 block 以便能够运行 bypickle

如果您愿意,如果您提供有关数据结构和大小的更多信息,我可以对其进行编辑。漂亮的问题!

关于python - 如何连接多个 pandas.DataFrames 而不会遇到 MemoryError,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44715393/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com