gpt4 book ai didi

将相似的字符串散列到相同的散列值

转载 作者:行者123 更新时间:2023-12-01 06:40:49 25 4
gpt4 key购买 nike

是否有一些散列算法可以将类似的文本文档散列到特定的散列值?

例如,

A = "这是示例文本 1"
B="这是示例文本 2"

A 和 B 需要散列到相同的值。

我做了一些研究并阅读了 SimHash 和 LSH 算法。
Simhash 会导致哈希冲突,并且可以使用汉明距离来定义相似度。

理想情况下,我想要类似“如果字符串 A 和字符串 B 相差可接受的相似性阈值 (t < tmax),则将 A 和 B 散列到相同的散列值。”

最佳答案

一个明显的选择是使用 Soundex或其变体之一(取决于这些词的语言)。

你没有说明你需要这个做什么。

  • 如果您需要创建某种哈希表变体,将相似的字符串放在同一个存储桶中,那么 soundex 变体可以工作,但您需要考虑可能发生冲突的可能性。
  • 如果您只需要一些指示两个字符串的相似程度,您还可以查看称为 Simil 的算法;见 this link ,或拼写检查相关算法。
  • 关于将相似的字符串散列到相同的散列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10599401/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com