作者热门文章
- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
是否有一些散列算法可以将类似的文本文档散列到特定的散列值?
例如,
A = "这是示例文本 1"
B="这是示例文本 2"
A 和 B 需要散列到相同的值。
我做了一些研究并阅读了 SimHash 和 LSH 算法。
Simhash 会导致哈希冲突,并且可以使用汉明距离来定义相似度。
理想情况下,我想要类似“如果字符串 A 和字符串 B 相差可接受的相似性阈值 (t < tmax),则将 A 和 B 散列到相同的散列值。”
最佳答案
一个明显的选择是使用 Soundex或其变体之一(取决于这些词的语言)。
你没有说明你需要这个做什么。
关于将相似的字符串散列到相同的散列值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10599401/
我是一名优秀的程序员,十分优秀!