gpt4 book ai didi

python - 计算两个 pandas DataFrame 的字符串之间的距离

转载 作者:行者123 更新时间:2023-12-01 02:34:34 25 4
gpt4 key购买 nike

我有 2 个数据框:

df1:
Date Name Num
2013-11-24 Banana 22.1
2013-11-24 Orange 8.6
2013-11-24 Apple 7.6
2013-11-24 Celery 10.2

df2:
Date Name Num
2013-11-24 Celery 22.1
2013-11-24 0r@nge 8.6
2013-11-24 @ppl3 7.6
2013-11-24 BananaX 10.2

我想找到相似的行,为此,我需要找到两个数据帧之间 Name 的相似性,现在我正在迭代每个数据帧并计算与其他数据帧的所有其他行的相似性数据帧(这是非常耗时的)并找到最大值,如果它大于某个阈值,我会用它做一些事情。

dfResult = pd.DataFrame()
import pandas as pd
from fuzzywuzzy import fuzz
for indexD, rowD in dfD.iterrows():
for indexS, rowS in dfS.iterrows():
data = pd.DataFrame({"ratio": fuzz.token_set_ratio(rowD['Name'], rowS['Name']),
"indexD": rowD['Num'], "indexS": rowS['Num']}, index=[indexS])
maxMatch = dfTMP.loc[dfTMP['ratio'].idxmax()]
......
......
......
resultMatch = create_match_row(maxMatch, dfD, dfS)

每次迭代后我都会得到

indexD      1
indexS 4
ratio 100
Name: 3, dtype: int64
1
indexD 2
indexS 1
ratio 35
Name: 0, dtype: int64
2
indexD 3
indexS 3
ratio 45
Name: 2, dtype: int64
3
indexD 4
indexS 4
ratio 33
Name: 3, dtype: int64

max 函数应该返回:

    indexD      1
indexS 4
ratio 100

这意味着数据帧 1 中的第 1 行与数据帧 2 中的第 4 行相似。

我想知道是否有更好的方法可以一次计算距离并删除内循环?并找到第一个数据帧中每一行(name)与第二个数据帧的最佳匹配?

预期输出:对于数据帧 1 中的每一行,我喜欢获取数据帧(只是一个简单的索引),该数据帧显示数据帧 2 中的哪一行最相同。

最佳答案

IIUIC,这是一种方法

In [3456]: def get_fuzz(df, w):
...: s = df['Name'].apply(lambda y: fuzz.token_set_ratio(y, w))
...: idx = s.idxmax()
...: return {'name': df['Name'].iloc[idx], 'index': idx, 'val': s.max()}
...:

In [3457]: df1['Name'].apply(lambda x: get_fuzz(df2, x))
Out[3457]:
0 {u'index': 3, u'name': u'BananaX', u'val': 92}
1 {u'index': 1, u'name': u'0r@nge', u'val': 67}
2 {u'index': 2, u'name': u'@ppl3', u'val': 67}
3 {u'index': 0, u'name': u'Celery', u'val': 100}
Name: Name, dtype: object

结果分配给df1(如果需要)

In [3458]: df1.assign(search=df1['Name'].apply(lambda x: get_fuzz(df2, x)))
Out[3458]:
Date Name Num search
0 2013-11-24 Banana 22.1 {u'index': 3, u'name': u'BananaX', u'val': 92}
1 2013-11-24 Orange 8.6 {u'index': 1, u'name': u'0r@nge', u'val': 67}
2 2013-11-24 Apple 7.6 {u'index': 2, u'name': u'@ppl3', u'val': 67}
3 2013-11-24 Celery 10.2 {u'index': 0, u'name': u'Celery', u'val': 100}
<小时/>

详情

In [3459]: df1
Out[3459]:
Date Name Num
0 2013-11-24 Banana 22.1
1 2013-11-24 Orange 8.6
2 2013-11-24 Apple 7.6
3 2013-11-24 Celery 10.2

In [3460]: df2
Out[3460]:
Date Name Num
0 2013-11-24 Celery 22.1
1 2013-11-24 0r@nge 8.6
2 2013-11-24 @ppl3 7.6
3 2013-11-24 BananaX 10.2

关于python - 计算两个 pandas DataFrame 的字符串之间的距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46397892/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com