gpt4 book ai didi

python - 确定一个企业名称是否与另一个非常相似 - Python

转载 作者:IT老高 更新时间:2023-10-28 22:02:11 26 4
gpt4 key购买 nike

我正在处理大型企业数据库。

我希望能够比较两个公司名称的相似性,看看它们是否可能是重复的。

以下是应测试为很可能重复的企业名称列表,有什么好的方法可以解决这个问题?

George Washington Middle SchlGeorge Washington SchoolSanta Fe East IncSanta Fe EastChop't Creative Salad CoChop't Creative Salad CompanyManny and Olga's PizzaManny's & Olga's PizzaRay's Hell Burger TooRay's Hell BurgersEl SolEl Sol de AmericaOlney Theatre Center for the ArtsOlney Theatre21 M Lounge21M LoungeHoliday Inn Hotel WashingtonHoliday Inn Washington-GeorgetownResidence Inn Washington,DC/Dupont CircleResidence Inn Marriott Dupont CircleJimmy John's Gourmet SandwichesJimmy John'sOmni Shoreham Hotel at Washington D.C.Omni Shoreham Hotel

最佳答案

我最近完成了一项类似的任务,尽管我将新数据与数据库中的现有名称进行匹配,而不是在一组中查找重复项。名称匹配实际上是一项经过充分研究的任务,其中有许多因素超出了您在匹配通用字符串时所考虑的范围。

首先,我建议看一下 Raffo 和 Lhuillery 的论文,如何玩“名称游戏”:比较不同启发式的专利检索。发布版本为here ,并且可以免费获得 PDF here .作者提供了一个很好的总结,比较了许多不同的匹配策略。他们考虑了三个阶段,他们称之为解析、匹配和过滤。

解析包括应用各种清理技术。一些例子:

  • 标准化字母大小写(例如,全部小写)
  • 标准化标点符号(例如,逗号后面必须跟空格)
  • 标准化空格(例如,将所有运行的空格转换为单个空格)
  • 标准化重音字符和特殊字符(例如,将重音字母转换为 ASCII 等效字符)
  • 标准化法律控制术语(例如,将“Co.”转换为“Company”)

在我的例子中,我将所有字母折叠成小写,将所有标点符号替换为空格,将重音字符替换为非重音字符,删除所有其他特殊字符,并从列表后面的名称的开头和结尾删除法律控制术语。

匹配是解析名称的比较。这可以是简单的字符串匹配、编辑距离、Soundex 或 Metaphone、组成名称的单词集的比较,或字母集或 n-grams 的比较(长度为 的字母序列n)。 n-gram 方法实际上对于名称来说非常好,因为它忽略了词序,对“示例部门”与“示例部门”之类的事情有很大帮助。事实上,使用像 Jaccard index 这样简单的东西比较二元组(2 元组,字符对)。非常有效。与其他几个建议相比,Levenshtein distance 是名称匹配方面较差的方法之一。

在我的例子中,我分两步进行匹配,首先比较解析后的名称是否相等,然后将 Jaccard 索引用于剩余的二元组。我没有实际计算所有名称对的所有 Jaccard 索引值,而是首先对两组给定大小的 Jaccard 索引的最大可能值设置一个界限,并且仅在该上限足够高时才计算 Jaccard 索引可能有用。大多数名称对仍然非常不同,以至于它们不匹配,但它大大减少了进行比较的次数。

过滤是使用辅助数据来拒绝解析和匹配阶段的误报。一个简单的版本是查看匹配的名称是否对应于不同城市的企业,从而对应不同的企业。该示例可以在匹配之前应用,作为一种预过滤。之后可能会应用更复杂或更耗时的检查。

我没有做太多过滤。我检查了这些国家的公司,看看它们是否相同,就是这样。数据中并没有太多的可能性,一些时间限制排除了对额外数据的任何广泛搜索以增强过滤,并且计划进行手动检查。

关于python - 确定一个企业名称是否与另一个非常相似 - Python,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6400416/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com