gpt4 book ai didi

python - 有效的编辑距离

转载 作者:行者123 更新时间:2023-12-04 09:42:11 25 4
gpt4 key购买 nike

我有一个很大的语料库,我试图在语料库中找到最相似的 n-gram。对于这种情况,我正在使用 get_close matches .

问题是这个过程需要很多时间。一位 friend 建议我将 n-gram 转换为 MD5,然后计算距离。我怀疑它会起作用。散列对散列是不变的吗?距离计算是否在字符串的 MD5 上有效运行?

Post scriptum,计算大型语料库中字符串(如 n-gram)之间的距离的最有效方法是什么?

最佳答案

一种有前途的方法是度量嵌入。本文:Convolutional Embedding for Edit Distance研究人员表示,该算法可以将搜索速度提高几个数量级。完成训练指标嵌入后,您可以应用 approximate nearest neighbor算法找到距离最短的k个文本。
哈。

关于python - 有效的编辑距离,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/62275915/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com