gpt4 book ai didi

python - pandas.DataFrame.to_sql 中的最佳 chunksize 参数

转载 作者:太空狗 更新时间:2023-10-29 21:58:16 39 4
gpt4 key购买 nike

使用需要转储到 PostgreSQL 表中的大型 pandas DataFrame。从我读过的内容来看,一次转储不是一个好主意,(我正在锁定数据库)而不是使用 chunksize范围。答案here对工作流有帮助,但我只是问影响性能的 block 大小的值。

In [5]: df.shape
Out[5]: (24594591, 4)

In [6]: df.to_sql('existing_table',
con=engine,
index=False,
if_exists='append',
chunksize=10000)

是否有推荐的默认值?将参数设置得更高或更低时,性能是否存在差异?假设我有内存来支持更大的 block 大小,它会执行得更快吗?

最佳答案

在我的例子中,当我使用 pandas to_sql 函数参数作为 chunksize=5000 和 method='multi' 时,在 8 分钟内插入了 300 万行,有 5 列。这是一个巨大的改进,因为使用 Python 将 3M 行插入数据库对我来说变得非常困难。

关于python - pandas.DataFrame.to_sql 中的最佳 chunksize 参数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35202981/

39 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com