gpt4 book ai didi

python - 加速 Pandas DB 中的交叉引用过滤

转载 作者:太空狗 更新时间:2023-10-30 02:17:55 27 4
gpt4 key购买 nike

我正在处理一个非常大的捐赠数据数据库,其中包含捐赠 ID、管道 ID、金额的相关列,例如:

  TRANSACTION_ID BACK_REFERENCE_TRAN_ID_NUMBER  CONTRIBUTION_AMOUNT
0 VR0P4H2SEZ1 0 100
1 VR0P4H3X770 0 2700
2 VR0P4GY6QV1 0 500
3 VR0P4H3X720 0 1700
4 VR0P4GYHHA0 VR0P4GYHHA0E 200

我需要做的是识别 TRANSACTION_ID 对应于任何 BACK_REFERENCE_TRAN_ID_NUMBER 的所有行。我目前的代码,尽管有点笨拙,是:

is_from_conduit = df[df.BACK_REFERENCE_TRAN_ID_NUMBER != "0"].BACK_REFERENCE_TRAN_ID_NUMBER.tolist()
df['CONDUIT_FOR_OTHER_DONATION'] = 0
for row in df.index:
if df['TRANSACTION_ID'][row] in is_from_conduit:
df['CONDUIT_FOR_OTHER_DONATION'][row] = 1
else:
df['CONDUIT_FOR_OTHER_DONATION'][row] = 0

但是,在具有大量管道捐赠的非常大的数据集上,这需要很长时间。我知道一定有更简单的方法,但显然我无法想出如何表达这个来找出它可能是什么。

最佳答案

您可以使用 Series.isin .它是一种矢量化操作,用于检查系列的每个元素是否在提供的可迭代对象中。

df['CONDUIT_FOR_OTHER_DONATION'] = df['TRANSACTION_ID'].isin(df['BACK_REFERENCE_TRAN_ID_NUMBER'].unique())

如@root 所述,如果您更喜欢 0/1(如您的示例)而不是 True/False,你可以转换为int:

df['CONDUIT_FOR_OTHER_DONATION'] = df['TRANSACTION_ID'].isin(df['BACK_REFERENCE_TRAN_ID_NUMBER'].unique()).astype(int)

关于python - 加速 Pandas DB 中的交叉引用过滤,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38532244/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com