gpt4 book ai didi

python - 通过正则表达式或模糊匹配合并 Dataframe

转载 作者:行者123 更新时间:2023-11-28 16:22:58 27 4
gpt4 key购买 nike

我有 d1 和 d2,我想按 ID 列合并两者。但是,ID 和 ID2 并不完全匹配。相反,ID 是 ID2 的前 8 位数字(有时它可以是前 6 位数字,或者有时可以相差一位或两位数)。

我知道我可以预处理 ID2 以仅保留前 8 位数字。但是,我无法处理所有情况。

请问有没有更高级的方式,通过正则表达式进行合并,进行模糊匹配?比如说,如果前 6 位数字匹配,则合并?

d1=pd.DataFrame({'ID':['00846U10','01381710'],
'count':[100,200]})
d2=pd.DataFrame({'ID2':['00846U101','013817101','02376R102'],
'value':[1,5,6]})

最佳答案

伙计,

我遇到了同样的问题,唯一的解决办法是使用其他 python 包。例如,看看 fuzzywuzzy。非常好。

一般的想法是,对于 d1 中的每一行,您将在 d2 中寻找具有最高模糊匹配分数的行。

关于python - 通过正则表达式或模糊匹配合并 Dataframe,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38752653/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com