gpt4 book ai didi

python - 如何最佳合并两个大数据框

转载 作者:太空宇宙 更新时间:2023-11-04 02:50:45 25 4
gpt4 key购买 nike

我有两个数据框,一个有超过 60,000,000 行,另一个有 500,000 行。我想基于多索引合并这两个数据帧。我的IDE是jupyter,我的PC内存是16G,CPU是2.3GHz,64bits。

如何最佳地合并它?我有一些要求。我需要得到重叠的部分。另外,我想知道是否有更深层次的优化方法,比如使用 Cpython 之类的?我不知道确切原因我只是在这里阅读 enhancing performance

df A 是这样的:

                    time                 brand
user_id sku_id
27630 37957 2016-02-01 07:43:14 8
489 37957 2016-02-01 07:43:04 8
489 37957 2016-02-01 07:43:02 8
661 21546 2016-02-01 07:43:02 6
……

df B 是这样的:

                   time                 brand
user_id sku_id
27630 37957 2016-02-01 07:43:14 8
489 37957 2016-02-01 07:43:04 8
764 37957 2016-02-01 07:43:02 8
667 2156 2016-02-01 07:43:02 3
……

最佳答案

我会使用 Index.intersection在这种情况下:

解决方案:

In [159]: A.loc[A.index.intersection(B.index)]
Out[159]:
time brand
user_id sku_id
489 37957 2016-02-01 07:43:04 8
37957 2016-02-01 07:43:02 8
27630 37957 2016-02-01 07:43:14 8

Pandas documentation: Merge, join, and concatenate

关于python - 如何最佳合并两个大数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43965744/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com