gpt4 book ai didi

c# - 如何识别拼写不同的相似词

转载 作者:太空狗 更新时间:2023-10-29 20:55:45 25 4
gpt4 key购买 nike

我想从数据库中过滤掉重复的客户名称。一个客户可能有多个同名但拼写差别不大的系统条目。所以这里有一个例子:一个名为 Brook 的客户可能有三个系统条目有这种变化:

  1. 布鲁克贝尔塔
  2. 布鲁克·贝尔塔
  3. 比鲁克贝尔塔

假设我们将这个名字放在一个数据库列中。我想知道识别此类重复的不同机制,例如 100,000 条记录。我们可以在 C# 中使用正则表达式来遍历所有记录或一些其他模式匹配技术,或者我们可以将这些记录导出到最适合此类查询的内容(具有正则表达式功能的 SQL)。

这是我认为的解决方案

  • 编写 C# 代码以遍历每条记录
  • 仅按顺序获取辅音字母(在上述情况下:BrKBrt)
  • 从考虑到的其他记录中搜索相同的辅音模式发音相似的字母,如 (C,K) (C,S), (F, PH)

所以请转发任何想法。

最佳答案

Double Metaphone算法于 2000 年发布,是 1918 年获得专利的 Soundex 算法的新改进版本。

这篇文章有指向多种语言的双变音位实现的链接。

关于c# - 如何识别拼写不同的相似词,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3091257/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com