gpt4 book ai didi

algorithm - 结构化数据的模糊匹配

转载 作者:塔克拉玛干 更新时间:2023-11-03 05:27:40 24 4
gpt4 key购买 nike

我在数据库中有一个相当小的结构化记录集给定一条记录中包含的信息的一小部分,通过web表单提交(其结构与表模式相同),(让我们称之为测试记录),我需要快速绘制一个记录列表,其中最有可能与测试记录匹配,以及提供搜索项与记录匹配程度的置信度估计。此搜索的主要目的是发现是否有人试图输入与语料库中的记录重复的记录有一个合理的机会,测试记录将是一个骗局,并有一个合理的机会,测试记录将不会是一个骗局。
记录宽约12000字节,记录总数约为150000条表架构中有110列,95%的搜索将位于最常用搜索列的前5%。
这些数据包括姓名、地址、电话号码和其他行业特定的号码在语料库和测试记录中,它都是手工输入的,并且在单个字段中是半结构化的乍一看,你可能会说“用手给列加上权重,并在其中匹配单词标记”,但这并不容易。我也这么想:如果我得到一个电话号码,我想那将表明一个完美的匹配问题是,没有一个字段的标记频率不随数量级变化。一个电话号码可能出现在语料库中100次,也可能出现在语料库中1次其他领域也是如此。这使得在实地进行加权不切实际。我需要一个更细粒度的方法来获得合适的匹配。
我最初的计划是创建散列,顶级是字段名然后,我将从给定字段的语料库中选择所有信息,尝试清理其中包含的数据,并对经过清理的数据进行标记,在第二级对标记进行哈希处理,将标记作为键,将频率作为值。
我将使用频率计数作为权重:引用语料库中标记的频率越高,如果在测试记录中找到标记,则附加到该标记的权重越小。
我的第一个问题是给房间里的统计学家:我如何使用频率作为权重n、记录数f(t)、标记t出现在语料库中的频率、记录是原始记录而不是重复记录的概率o和测试记录在同一字段中包含相同t的情况下是记录x的概率p之间是否存在精确的数学关系?多个字段中多个标记匹配的关系如何?
既然我真诚地怀疑,有没有什么能让我更接近,但比一个完全武断的黑客充满魔力的因素更好呢?
除此之外,有人能做到吗?
我特别喜欢不涉及在数据库中维护另一个表的其他建议,比如令牌频率查找表。

最佳答案

你也许可以从这个不同但相似的问题中得到一些想法:
calculating-context-sensitive-text-correlation
更具体地说,下面是一些想法和想法:
首先,承认使用非常不均衡(只有6到10个属性覆盖了95%的使用),您可以/应该对这些属性应用不对称的工作,即在编程时间和运行时CPU分配方面,为处理这些少数属性而不是100多个附加属性投入更多。
为匹配数据库中可能的重复项而提供的输入数据量相对较小,通常使用的属性集相对较小,这些属性的语义(电话号码、地址、名称……)显然很常见,这表明是一种手工制作的解决方案,而不是完全基于机器学习的解决方案。
注:此后的许多建议不必应用于所有属性(因为这些建议中只有不到十几个涵盖了几乎所有的用法,所以没有必要,至少首先要对其他属性进行大量投资。
规范化数据
如果不允许更改原始字段值,则可以将相应的列复制到“norm_xxx”coluumn中,其中xxx是原始名称。
什么,如何规范化可能因每个属性而异;对于“自由文本”之类的数据,请确保没有前导或尾随空格,单词之间只有一个空格,没有制表符和不可打印字符。使用全大写或全小写(尽管原始/用于显示的文本可能包含一个mix,但通过采用统一的大小写,处理速度会更快)。更具体地说,对于地址和/或公司名称,可以将常用术语转换为标准格式(ST表示街道、ST和ST等)(请确保保留此列表,因为它也将应用于用户搜索条件)标准化的一部分还可能是完全去掉一些噪音词(如公司名称末尾的CO,INC,GMBH)
创建几个计算列
例如,与文本相反的是,可以使用尾随通配符搜索属性
考虑对某些属性使用类似soundex的转换。
全文索引,单独,所有类似文本的列
在所有6到10个常用列上创建普通(SQL)索引
以上这些,仅仅是为实际比赛做的离线时间准备。现在。。用户输入他/她的查询…以下是一些处理方法
规范化搜索条件
运行几个搜索…
这有点棘手;执行这些搜索有几个部分冲突的目标。我们希望大大减少“潜在匹配”的数量:将所有150000条记录与用户提供的标准进行完全的一对一比较实际上是不切实际的;例如,某些匹配逻辑可能意味着计算数据库给定记录的字段与搜索标准之间的编辑距离。我们还想确保我们不排除“潜在匹配”列表中的记录,因为在说公司名称最后,我们要以排名的方式提供潜在匹配的列表。
执行这些搜索的方式遵循一些预先定义的启发式算法(我发现策略设计模式很好地工作,允许根据用户提供的输入在搜索方式上灵活)。简言之,我们在最具选择性/相关性的属性中搜索最具选择性的词,根据找到的“点击”次数,我们要么“或”(联合)要么“和”与其他搜索结果一起搜索,直到我们有几百条记录。
计算“潜在匹配”记录的每个属性与相应搜索条件之间的相似度值可能对这个值应用一个系数(允许将更大的权重称为公司名称[部分]与城市匹配)
统计完整记录的总体相似性值(与完整搜索条件相比)
向最终用户显示超过相似度值的特定阈值的记录,以供审阅
最后,还有一个部分自动化的过程,您可以根据最终用户提供的一些反馈更改一些参数。(这很棘手,我会把它留到其他帖子上;-))

关于algorithm - 结构化数据的模糊匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2430037/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com