gpt4 book ai didi

python - Pandas 合并具有多列和容差的数据框

转载 作者:行者123 更新时间:2023-12-04 17:26:16 27 4
gpt4 key购买 nike

我有 2 个数据框,我想使用 2 列作为键来合并它们并创建另一个合并的数据框。这里,Column1 是 String,Columns2 是 float 数据类型。我想在 column2 上设置 .01 的公差,这样来自 dataframe1 的 (John, 1.12) 和来自 dataframe2 的 (John, 1.13) 应该在同一行。我怎样才能做到这一点?

例如:2 个数据框:

df1 = pd.DataFrame({"Name":["John","Millon"], "MarketVal":[1.12,2.11], "Left_Product":["Sugar","Salt"]})
df2 = pd.DataFrame({"Name":["John","Rex"], "MarketVal":[1.13,3.11], "right_Product":["Sugar","Salt"]})

如果我这样做:

dfMerge = pd.merge(df1,df2,on=["Name","MarketVal"], how= "outer")

然后这将为“John”创建 2 个单独的行,因为 MarketVal 在两个数据框中是不同的。但我想对此保持 .01 的公差,以便它们位于同一行。

    Actual :->
Name MarketVal Left_Product right_Product
0 John 1.12 Sugar NaN
1 Millon 2.11 Salt NaN
2 John 1.13 NaN Sugar
3 Rex 3.11 NaN Salt

Expected :->

Name MarketVal Left_Product right_Product
0 John 1.12 Sugar Sugar
1 Millon 2.11 Salt NaN
2 Rex 3.11 NaN Salt

最佳答案

merge 仅在 'Name' 上,然后使用掩码仅保留在您所需容差范围内的行。由于外部连接,如果任何“MarketVal”为空,我们也会保留一行。如果 'MarketVal' 来自外部合并中正确的 DataFrame,我们还需要更新它。

tol = 0.01
m = df1.merge(df2, on='Name', how='outer', suffixes=['', '_r'])
m = m[(m['MarketVal'] - m['MarketVal_r']).abs().le(tol)
| m[['MarketVal', 'MarketVal_r']].isnull().any(1)]

# Name MarketVal Left_Product MarketVal_r right_Product
#0 John 1.12 Sugar 1.13 Sugar
#1 Millon 2.11 Salt NaN NaN
#2 Rex NaN NaN 3.11 Sal

m['MarketVal'] = m['MarketVal'].fillna(m['MarketVal_r'])
m = m.drop(columns='MarketVal_r')

# Name MarketVal Left_Product right_Product
#0 John 1.12 Sugar Sugar
#1 Millon 2.11 Salt NaN
#2 Rex 3.11 NaN Salt

df2 中匹配多行的情况下,这将保留所有组合。在这里,我为 John 添加了另一行,其中包含应与 df1 中的第一行匹配的“Coffee”,以及不应与任何内容匹配的行。

df1 = pd.DataFrame({'Name': ['John', 'Millon'], 
'MarketVal': [1.12, 2.11], 'Left_Product':['Sugar', 'Salt']})
df2 = pd.DataFrame({'Name': ['John', 'Rex', 'John', 'John'],
'MarketVal': [1.13, 3.11, 1.125, 17],
'right_Product': ['Sugar', 'Salt', 'coffee', 'bad_item']})

#... the above code
print(m)

Name MarketVal Left_Product right_Product
0 John 1.12 Sugar Sugar
1 John 1.12 Sugar Coffee
3 Millon 2.11 Salt NaN
4 Rex 3.11 NaN Salt

关于python - Pandas 合并具有多列和容差的数据框,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/63159483/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com