gpt4 book ai didi

python - 与 python 列表中的项目的 levenshtein 距离

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:03:34 25 4
gpt4 key购买 nike

我在下面有两个列表,我想比较相似的编辑距离是否小于 2 的单词。我有一个函数可以找到编辑距离,但是作为参数它需要这两个词。我可以找到其他列表中没有的单词,但这无济于事。而且我可以逐个索引,但就像下面的情况一样,当我到达索引 7(但除此之外)时,所有内容都被丢弃,因为不忠将是索​​引 9 和 8,而 wcop88 是 9 和 10,因此不会比较它们。有没有什么方法可以说如果不忠的一部分在另一个列表中的某个词中然后检查这两个,请注意这并不总是有效因为说如果不忠和不忠只有 in 和 ty 可以匹配并且很多词可以可能匹配那个

[u'rt', u'cuaimatizada', u's', u'cuaimaqueserespeta', u'forgives', u'any', u'mistake', u'but', u'the', u'infidelity', u'wocp88']
[u'rt', u'cuiamatizada', u's', u'cuimaqueserespeta', u'forgive', u'any', u'mistake', u'except', u'infedelity', u'wcop88']

编辑:所以我的目标是能够为我的 levenshtein 函数提供需要检查的两个词。在这种情况下,以下对:

u'cuaimatizada      u'cuiamatizada

u'cuaimaqueserespeta u'cuimaqueserespeta

u'forgives u'forgive

u'infedelity u'infidelity

u'wocp88 u'wcop88

我之前不知道是哪个词。

最佳答案

我想这就是你想要的......但它比较所有的词......而不仅仅是匹配索引

 wordpairs = [(w1,w2) for w1 in list1 for w2 in list2 if levenstein(w1,w2) < 2]

>>> matches = [(w1,w2) for w1 in l12 for w2 in l22 if levenshtein(w1,w2) < 2]

[(u'rt', u'rt'), (u's', u's'), (u'cuaimaqueserespeta', u'cuimaqueserespeta'), (u'forgives', u'forgive'), (u'any', u'any'), (u'mistake', u'mistake'), (u'infidelity',u'infedelity')]

关于python - 与 python 列表中的项目的 levenshtein 距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11437121/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com