gpt4 book ai didi

python - 如何找到两行数据之间的相似性

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:15:11 24 4
gpt4 key购买 nike

<分区>

我尝试以编程方式从数据集中删除几乎重复的数据之一。我的数据集在逻辑上如下表所示。如您所见,数据集中有两行,人们可以很容易地理解这两个数据是相关的,并且可能是由同一个人添加的。

enter image description here

我对这个问题的解决方案是使用 Levenshtein 分别比较字段(姓名、地址、电话号码)并找出它们的相似率。然后我计算平均比率为 0.77873。这种相似性结果似乎很低。我的 python 代码就像

from Levenshtein import ratio
name = ratio("Game of ThOnes Books for selling","Selling Game of Thrones books")
address = ratio("George Washington street","George Washington st.")
phone = ratio("555-55-55","0(555)-55-55")

total_ratio = name+address+phone
print total_ratio/3 #Average ratio

我的问题是两个比较行数据的最佳方式是什么?执行此操作需要哪些算法或方法?

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com