gpt4 book ai didi

python - 寻找一种加速 Pandas 合并的方法(或可能是另一种方法)

转载 作者:行者123 更新时间:2023-11-28 18:56:28 27 4
gpt4 key购买 nike

您好,我最近发布了一个关于执行合并以获取 pandas 数据框并返回满足条件的列的问题。

完整的细节可以在这里找到:

How to add a new column to a pandas df that returns the smallest value that is greater in the same group from another dataframe

(不确定我是否应该发布整个问题以保持这篇文章的独立性,所以我现在只留下一个链接)。

给出的解决方案运行良好,因为我需要较小的数据集,所以认为少于一千行。

这是建议的答案:

m=(df1.assign(key=1).merge(df2.assign(key=1),on='key',suffixes=('','_y')).drop('key', 1)
.query("(Code==Code_y)&(Price<=Price_y)"))
m.groupby(['Code','Price'],sort=False)['Price_y'].first().reset_index(name='New Price'

然而,当我开始在更大的数据集(这是我的要求)上使用它时,它开始减速到几乎无法使用的水平,想想 5 分钟 + 数千行,一旦我因为内存错误而完全崩溃尝试进一步增加数据框中的行数。

我不禁想到,一定有更好的方式来在更高效的时间内完成这个 Action 。

有人有什么建议吗?

最佳答案

请尝试:

m=df1.set_index('Code').join(df2.set_index('Code'),rsuffix='_New')
df1.join(m[m.Price<=m.Price_New].groupby('Price',sort=False)['Price_New']
.first().reset_index(drop=True))

  Code  Price  Price_New
0 X 4.30 4.5
1 X 2.50 2.5
2 X 4.00 4.0
3 X 1.50 1.5
4 X 0.24 0.5
5 X 1.00 1.0
6 X 1.30 1.5
7 Y 3.90 4.0
8 Y 2.60 3.0

样本 df 的性能:

enter image description here

关于python - 寻找一种加速 Pandas 合并的方法(或可能是另一种方法),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57784836/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com