gpt4 book ai didi

python - 在Python中的两列中查找匹配的相似元素

转载 作者:行者123 更新时间:2023-11-30 22:05:21 24 4
gpt4 key购买 nike

我有一个数据集,例如:

Column1                Column2
a bc cdr
cd r ab c
bose beats
bea ts bo se
i phone sam sung
samsung iphone

如果您注意到两列包含几乎相似的单词,但格式不同并且其中有空格。我希望余弦相似度或序列匹配器等技术将它们与列进行匹配,以便结果如下所示:

column 1                 column 2 
a bc ab c
cd r cdr
bose bo se
bea ts beats
i phone iphone
samsung sam sung

请注意,这只是示例数据,字符串比这些更复杂。我如何利用余弦相似度和序列匹配器等软件包来实现这一目标?

最佳答案

没有强大的原生pandas方法来解决这个问题。我建议使用 fuzzywuzzy 库来解决这个问题。确保先pip install fuzzywuzzy

默认情况下,该库使用 Levenshtein distance用于字符串相似性。

<小时/>
from fuzzywuzzy import process

res = [process.extractOne(w, df.Column2)[0] for w in df.Column1]
df.assign(Column2=res)

   Column1   Column2
0 a bc ab c
1 cd r cdr
2 bose bo se
3 bea ts beats
4 i phone iphone
5 samsung sam sung

关于python - 在Python中的两列中查找匹配的相似元素,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53050277/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com