gpt4 book ai didi

algorithm - 字符串的局部敏感散列?

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:16:11 24 4
gpt4 key购买 nike

是否有针对字符串的哈希函数,使得编辑距离较小(例如,拼写错误)内的字符串会映射到相同或非常接近的哈希值,而不同的字符串往往不会?

最佳答案

一个选项是计算所有 k-mers(长度为 k 的子串)的集合,对它们进行散列并计算最小值。因此,您将带状疱疹的想法与 minhashing 的想法结合起来。(重复多次以获得更好的结果,与 LSH 方案一样)

其工作方式是两个字符串具有相同最小哈希值的概率与其 k-mer 集的 Jackard 相似度相同。k-mer 集的相似性与编辑距离有关(但不相同)。

关于algorithm - 字符串的局部敏感散列?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45870962/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com