gpt4 book ai didi

python - 使用重音编辑距离

转载 作者:太空宇宙 更新时间:2023-11-04 07:10:03 30 4
gpt4 key购买 nike

python 中是否有一些考虑重音的编辑距离。例如,在哪里拥有以下属性(property)

d('ab', 'ac') > d('àb', 'ab') > 0

最佳答案

随着Levenshtein module :

In [1]: import unicodedata, string

In [2]: from Levenshtein import distance

In [3]: def remove_accents(data):
...: return ''.join(x for x in unicodedata.normalize('NFKD', data)
...: if x in string.ascii_letters).lower()

In [4]: def norm_dist(s1, s2):
...: norm1, norm2 = remove_accents(s1), remove_accents(s2)
...: d1, d2 = distance(s1, s2), distance(norm1, norm2)
...: return (d1+d2)/2.

In [5]: norm_dist(u'ab', u'ac')
Out[5]: 1.0

In [6]: norm_dist(u'àb', u'ab')
Out[6]: 0.5

关于python - 使用重音编辑距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/15790545/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com