string - 是否有 SOUNDEX 或变音位的替代方法来处理冲突较少的名称？-6ren

string - 是否有 SOUNDEX 或变音位的替代方法来处理冲突较少的名称？

转载作者：行者123 更新时间：2023-12-05 07:56:49

24

4

我试图通过计算每个字符串的变音位键在大量名称列表中找到接近的重复项，然后在每组可能的重复项中，使用 Levenshtein 距离之类的东西来更精确地估计重复可能性.¹

但是，我发现变音位在很大程度上取决于字符串中的第一个字符，因此如果我向它输入一长串人名，我会得到巨大的存储桶，其中每个人的名字都是“Jennifer X”或“Richard” Y”，但在其他方面没有太多共同点。

如果我在生成 key 之前反转字符串，结果会更合理，因为它们按姓氏分组，但我仍然发现名字并不是特别相似。

那么是否有类似的算法可以对更多的输入字符串进行采样以生成声音 key ，也许是通过使用更长的 key 字符串？

[1] 理想情况下，我会直接计算字符串距离，但如果我的列表有 10,000 个名称，那将意味着 100,000,000 次计算，这就是为什么我试图通过声音键控首先且仅对每个名称进行分而治之检查桶内的相似性。但如果有更好的方法，我很想听听!

最佳答案

试试 eudex。

它被描述为“一种极快的语音缩减/哈希算法。”

有许多简单的方法可以使用它，因为它将一个单词编码为一个 64 位整数，具有针对 MSB 的最具辨别力的特征。哈希之间的汉明差异也可用作单词和拼写之间的差异度量。

关于string - 是否有 SOUNDEX 或变音位的替代方法来处理冲突较少的名称？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28113371/

24

4

0

文章推荐： google-apps-script - 尝试自动打开由脚本创建的文档

文章推荐： unicode - 如何解码带有 unicode 符号的混合字符串？

文章推荐： R - 将数据帧写入/读取到文件，包括属性

文章推荐： php - 如何获取标签后的文字

compiler-errors - 较少，编译问题
我正在使用Visual Studio 2012和Web Essential 2012，而Less生成的css与预期的不一样 //style.less .selector{ max-heig
compiler-errors - 较少，使用CSS网址中的变量编译问题
我创建了一个基于LESS的小型混合器，用于以标准或视网膜格式输出图像。我无法理解将变量包装在与此相伴的一些CSS URL中-当我编译下面的代码时，我最终得到 url('http://sample.co
javascript - 如何使用 CSS(较少)
有人可以帮助我使用 CSS(less)吗，因为我似乎还不能理解它是如何工作的，我已经通过 node.js 安装了它，但现在如何将它链接到我的代码/网页？由于某种原因，选择框没有输出到网页上，因为很可
c++ - Bithacking 比较(较少)运算符
我知道大多数算术运算只能使用按位运算符( Add two integers using only bitwise operators? 、 Multiplication of two integers
css - 第 n 个 child 跳过特定类(class)较少
我需要在 less 中选择一个类的第 n 个子元素，而不是计算特定类的元素。例如，给定: 李 li class="skip_this" 李李李我想让第 n 个 child 在计数时跳过 skip
javascript - 如何使用 ajax(使用 jquery)更改和运行 js 和 css(较少)文件
当我单击一个按钮时，我进行了一个 ajax 调用，该调用将不同的 html 代码加载到一个 ID 为“main”的 div 中。我可以毫无问题地显示 html 代码，但我找不到将 css 和 js 代
linux -/bin/sh "embedded linux"while do done - 需要 sleep 命令 - CPU 较少
我正在使用非常有限的 Shell 开发嵌入式 Linux。内置命令非常少。我想检查 gpio 端口。这适用于以下内容。但它需要很多 CPU/IO - 电源!!所以我想像 sleep 一样得到短暂的休

首页

博学

6Ren·AI

商城

string - 是否有 SOUNDEX 或变音位的替代方法来处理冲突较少的名称？