gpt4 book ai didi

python - 自定义 python-levenshtein 字符值

转载 作者:太空宇宙 更新时间:2023-11-03 14:01:31 25 4
gpt4 key购买 nike

我正在使用 python-levenshtein 模块来分析很长一段时间内的爱尔兰语文本;随着时间的推移,文本会发生许多拼写变化,例如bí -> ḃí -> bhí,“b”上的变音符号和 b 后面的“h”都代表相同的 lenition 语法形式(在第一个周期中未显示)。

在所有这些形式之间,我想要一个相当低的距离,但是使用 python-levenshtein 距离,可以得到 Levenshtein.ratio(u'ḃí', u'bí') = 0.5< 之间的相同距离Levenshtein.ratio(u'xí', u'bí') = 0.5,显然是对字符 'b' 的一个较小的正字法更改,并且它直接替换为 'x'(外来字符)借用启动)不应该有相同的分数。

有没有办法修改特定字符变化的值,例如减少 bí 到 ḃí 的距离,但增加 bí 和 xí 之间的距离?或者我需要生成自己的实现吗?

最佳答案

Levenshtein 算法(“编辑距离”)不允许字符之间存在不同的距离,但有一个概括 - Needleman-Wunsch 算法 - 允许。我不知道 Python 实现,但建议在实现您自己的实现之前先寻找一个 - 这是可能的,但并不简单。

关于python - 自定义 python-levenshtein 字符值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49213383/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com