gpt4 book ai didi

database - 比较相似的单词和短语

转载 作者:塔克拉玛干 更新时间:2023-11-03 06:03:10 29 4
gpt4 key购买 nike

我在 excel 中有 2 个数据库。在数据库 A 中,我有各种公司、城市和慈善机构的名称。数据库B是一样的。但是数据库 B 是由客户填写的。因此,我在法定名称上遇到了很多随机错误和/或变体。

匹配名称的最佳方式是什么?

以下是一些示例差异:

  1. ABC 市可能会显示为 Corporation of the City of ABC
  2. ABC Corporation 可能只是作为 ABCcorporation(他们忘记了一个空格)
  3. University of ABC may be abstracted as Univ of ABC
  4. Canadian Tire 可能显示为 Canadian Tire Store #503
  5. Canadian Tire 可能像 Canadia Tire 一样拼写错误
  6. ABC Corp 可能显示为 ABC Inc

有好的解决办法吗?我知道这个问题有点遥不可及,但如果我能做到这一点,我每年就可以为公司节省数千小时的时间......

任何建议将不胜感激

最佳答案

这是一个非常复杂的问题。查找“主数据管理”和“dedup”。 This wikipedia article是一个很好的起点。

问题最好分小块解决。我的建议是阅读一些内容并实现一个列出潜在重复项的工具以及一些合并它们的简单方法。这里的关键词是潜力;您不想进行错误的合并,误报很有可能而且非常有害。

关于database - 比较相似的单词和短语,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13037278/

29 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com