gpt4 book ai didi

python - 用于在 Python 中匹配具有相似 ID 字符串的两个集合的分类器

转载 作者:太空宇宙 更新时间:2023-11-03 11:38:37 26 4
gpt4 key购买 nike

我有 2 组数据,它们具有共同的特征集但 ID 名称的标签不同。

我想看看是否有一个最佳分类器可以帮助我根据这些特征选择哪些名称匹配是最佳选择。

设置 1 如下所示:

Name         ID1           code1          move1        year
Highland 1 nc st 2002
Highland 4 nc st 2001
Highland gt3 nc st 2002
Highland gt2 nc st 2003
Mark wt1 ns st 2000
Mark ws1 ns st 1945
Mark ost6 nc ct 2002
Niko 1 ng ct 2000
.
.

第 2 组 看起来像:

Name         ID2           code2          move2        year
Highland gt1 nc st 2002
Highland gt3 nc st
Highland 2 nc st 2003
Highland gt4 nc st 2001
Mark t1 ns st 2000
Mark s1 nsi st
Mark ost6 nci ct 2002
Niko 1 ngi ct 2000
.
.

如您所见,两组中存在一些差异,但 Name 始终相同 - ID 有时几乎匹配,有时完全匹配。其他时候,codesmoves 匹配或接近,有时只是缺少一组年份。

我已经为这些 ID 计算了 模糊比率,它使用 Levenshtein 距离,但它们不足以让我真正做出很好的匹配。

有没有一种方法可以使用 SVM 之类的工具更好地识别这些 ID?

最佳答案

尝试使用 fuzz.token_set_ratio() 而不是 fuzzy.ration()。使用 fuzz.token_set_ratio() 你会得到一个很好的匹配。

欲了解更多信息,请访问 docs .

关于python - 用于在 Python 中匹配具有相似 ID 字符串的两个集合的分类器,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54191872/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com