gpt4 book ai didi

python - Python 中基于标记的编辑距离?

转载 作者:行者123 更新时间:2023-11-28 19:48:03 27 4
gpt4 key购买 nike

我熟悉 python 的 nltk.metrics.distance 模块,它通常用于计算两个字符串的编辑距离。

我对一个函数感兴趣,它计算这样的距离,但不是像通常那样按字符而是按标记。我的意思是您只能替换/添加/删除整个标记(而不是字符)。

常规编辑距离示例和我想要的标记化版本:

> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times

> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token

是否已经有一些函数可以在 python 中计算 token_dist?我宁愿使用已经实现和测试过的东西,也不愿编写自己的代码。感谢提示。

最佳答案

NLTK 的 edit_distance 似乎对列表和字符串同样有效:

nltk.edit_distance("aa bbbb cc", "aa b cc")
> 3
nltk.edit_distance("aa bbbb cc".split(), "aa b cc".split())
> 1

关于python - Python 中基于标记的编辑距离?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36827517/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com