gpt4 book ai didi

python - 是否可以与 python pandas 进行模糊匹配合并?

转载 作者:IT老高 更新时间:2023-10-28 20:32:51 30 4
gpt4 key购买 nike

我有两个要基于列合并的 DataFrame。但是,由于拼写不同、空格数量不同、变音符号的缺失/存在,只要它们彼此相似,我希望能够合并。

任何相似性算法都可以(soundex、Levenshtein、difflib's)。

假设一个DataFrame有以下数据:

df1 = DataFrame([[1],[2],[3],[4],[5]], index=['one','two','three','four','five'], columns=['number'])

number
one 1
two 2
three 3
four 4
five 5

df2 = DataFrame([['a'],['b'],['c'],['d'],['e']], index=['one','too','three','fours','five'], columns=['letter'])

letter
one a
too b
three c
fours d
five e

那我想得到结果DataFrame

       number letter
one 1 a
two 2 b
three 3 c
four 4 d
five 5 e

最佳答案

类似于@locojay 的建议,可以申请difflibget_close_matchesdf2 的索引,然后应用 join :

In [23]: import difflib 

In [24]: difflib.get_close_matches
Out[24]: <function difflib.get_close_matches>

In [25]: df2.index = df2.index.map(lambda x: difflib.get_close_matches(x, df1.index)[0])

In [26]: df2
Out[26]:
letter
one a
two b
three c
four d
five e

In [31]: df1.join(df2)
Out[31]:
number letter
one 1 a
two 2 b
three 3 c
four 4 d
five 5 e

.

如果这些是列,同样您可以应用到列然后 merge :

df1 = DataFrame([[1,'one'],[2,'two'],[3,'three'],[4,'four'],[5,'five']], columns=['number', 'name'])
df2 = DataFrame([['a','one'],['b','too'],['c','three'],['d','fours'],['e','five']], columns=['letter', 'name'])

df2['name'] = df2['name'].apply(lambda x: difflib.get_close_matches(x, df1['name'])[0])
df1.merge(df2)

关于python - 是否可以与 python pandas 进行模糊匹配合并?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13636848/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com