gpt4 book ai didi

python - Pandas_合并两个大数据集

转载 作者:行者123 更新时间:2023-12-01 01:49:10 25 4
gpt4 key购买 nike

我正在使用 Pandas 进行分析(我目前正在使用 Jupyter Network)。我有两个大数据集(一个是 14 GB,第二个是 4 GB)。我需要根据列合并这两个数据集。我使用以下代码:

 df = pd.merge(aa, bb, on='column', how='outer')

正常情况下,此代码可以工作。但是,由于我的数据集很大,因此需要很长时间。我 4 小时前运行了我的代码,它仍在继续。我机器的 RAM 是 8 GB。您对此有什么建议吗?

最佳答案

您可以尝试使用dask.dataframe并行化您的任务:

import dask.dataframe as dd

# define lazy readers
aa = dd.read_csv('file1.csv')
bb = dd.read_csv('file2.csv')

# define merging logic
dd_merged = aa.merge(bb, on='column', how='outer')

# apply merge and convert to dataframe
df = dd_merged.compute()

关于python - Pandas_合并两个大数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50911651/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com