gpt4 book ai didi

algorithm - 字符串比较算法,相关性, "alike"2个字符串是多少

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:40:18 24 4
gpt4 key购买 nike

我有相同数据(公司)的 2 个信息源,我可以通过唯一 ID(契约(Contract)号)将它们连接在一起。第二个不同来源的存在是由于这两个来源是手动独立更新的。所以我在 2 个表中有一个 ID 和一个公司 Name

我需要想出一个算法来比较 2 个表中的 Name 是否具有相同的 ID,然后对所有companys 通过一个变量来表示字符串的不同程度(突出显示最不同的字符串,将其放在列表的顶部)。

我看过简单的 Levenshtein 距离计算算法,但它在字母级别,所以我仍在寻找更好的东西。

Levenshtein 没有真正做到这一点的原因是:公司有一个名称,其前缀或后缀是组织形式(LTD、JSC、co. 等)。所以我们可能有很多 JSC "Foo"Foo JSC. 有很大不同,但我真正在数据库中寻找的是成对的不同字符串像 SomeLongCompanyName JSCJSC OtherName

有什么好的方法可以做到这一点吗? (我不太喜欢使用正则表达式分隔每个字符串中的单词,然后使用 Levenshtein 距离为另一个字符串中的每个单词找到匹配项的想法,所以我正在寻找其他想法)

最佳答案

怎么样:
1. 用空格替换所有标点符号。
2. 将字符串分成以空格分隔的单词。
3.将<= 4个字符的所有单词移到末尾,按字母顺序排序。
4. 编辑。

关于algorithm - 字符串比较算法,相关性, "alike"2个字符串是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/3726432/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com