- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我在数据库中有一个相当小的结构化记录集给定一条记录中包含的信息的一小部分,通过web表单提交(其结构与表模式相同),(让我们称之为测试记录),我需要快速绘制一个记录列表,其中最有可能与测试记录匹配,以及提供搜索项与记录匹配程度的置信度估计。此搜索的主要目的是发现是否有人试图输入与语料库中的记录重复的记录有一个合理的机会,测试记录将是一个骗局,并有一个合理的机会,测试记录将不会是一个骗局。
记录宽约12000字节,记录总数约为150000条表架构中有110列,95%的搜索将位于最常用搜索列的前5%。
这些数据包括姓名、地址、电话号码和其他行业特定的号码在语料库和测试记录中,它都是手工输入的,并且在单个字段中是半结构化的乍一看,你可能会说“用手给列加上权重,并在其中匹配单词标记”,但这并不容易。我也这么想:如果我得到一个电话号码,我想那将表明一个完美的匹配问题是,没有一个字段的标记频率不随数量级变化。一个电话号码可能出现在语料库中100次,也可能出现在语料库中1次其他领域也是如此。这使得在实地进行加权不切实际。我需要一个更细粒度的方法来获得合适的匹配。
我最初的计划是创建散列,顶级是字段名然后,我将从给定字段的语料库中选择所有信息,尝试清理其中包含的数据,并对经过清理的数据进行标记,在第二级对标记进行哈希处理,将标记作为键,将频率作为值。
我将使用频率计数作为权重:引用语料库中标记的频率越高,如果在测试记录中找到标记,则附加到该标记的权重越小。
我的第一个问题是给房间里的统计学家:我如何使用频率作为权重n、记录数f(t)、标记t出现在语料库中的频率、记录是原始记录而不是重复记录的概率o和测试记录在同一字段中包含相同t的情况下是记录x的概率p之间是否存在精确的数学关系?多个字段中多个标记匹配的关系如何?
既然我真诚地怀疑,有没有什么能让我更接近,但比一个完全武断的黑客充满魔力的因素更好呢?
除此之外,有人能做到吗?
我特别喜欢不涉及在数据库中维护另一个表的其他建议,比如令牌频率查找表。
最佳答案
你也许可以从这个不同但相似的问题中得到一些想法:
calculating-context-sensitive-text-correlation。
更具体地说,下面是一些想法和想法:
首先,承认使用非常不均衡(只有6到10个属性覆盖了95%的使用),您可以/应该对这些属性应用不对称的工作,即在编程时间和运行时CPU分配方面,为处理这些少数属性而不是100多个附加属性投入更多。
为匹配数据库中可能的重复项而提供的输入数据量相对较小,通常使用的属性集相对较小,这些属性的语义(电话号码、地址、名称……)显然很常见,这表明是一种手工制作的解决方案,而不是完全基于机器学习的解决方案。
注:此后的许多建议不必应用于所有属性(因为这些建议中只有不到十几个涵盖了几乎所有的用法,所以没有必要,至少首先要对其他属性进行大量投资。
规范化数据
如果不允许更改原始字段值,则可以将相应的列复制到“norm_xxx”coluumn中,其中xxx是原始名称。
什么,如何规范化可能因每个属性而异;对于“自由文本”之类的数据,请确保没有前导或尾随空格,单词之间只有一个空格,没有制表符和不可打印字符。使用全大写或全小写(尽管原始/用于显示的文本可能包含一个mix,但通过采用统一的大小写,处理速度会更快)。更具体地说,对于地址和/或公司名称,可以将常用术语转换为标准格式(ST表示街道、ST和ST等)(请确保保留此列表,因为它也将应用于用户搜索条件)标准化的一部分还可能是完全去掉一些噪音词(如公司名称末尾的CO,INC,GMBH)
创建几个计算列
例如,与文本相反的是,可以使用尾随通配符搜索属性
考虑对某些属性使用类似soundex的转换。
全文索引,单独,所有类似文本的列
在所有6到10个常用列上创建普通(SQL)索引
以上这些,仅仅是为实际比赛做的离线时间准备。现在。。用户输入他/她的查询…以下是一些处理方法
规范化搜索条件
运行几个搜索…
这有点棘手;执行这些搜索有几个部分冲突的目标。我们希望大大减少“潜在匹配”的数量:将所有150000条记录与用户提供的标准进行完全的一对一比较实际上是不切实际的;例如,某些匹配逻辑可能意味着计算数据库给定记录的字段与搜索标准之间的编辑距离。我们还想确保我们不排除“潜在匹配”列表中的记录,因为在说公司名称最后,我们要以排名的方式提供潜在匹配的列表。
执行这些搜索的方式遵循一些预先定义的启发式算法(我发现策略设计模式很好地工作,允许根据用户提供的输入在搜索方式上灵活)。简言之,我们在最具选择性/相关性的属性中搜索最具选择性的词,根据找到的“点击”次数,我们要么“或”(联合)要么“和”与其他搜索结果一起搜索,直到我们有几百条记录。
计算“潜在匹配”记录的每个属性与相应搜索条件之间的相似度值可能对这个值应用一个系数(允许将更大的权重称为公司名称[部分]与城市匹配)
统计完整记录的总体相似性值(与完整搜索条件相比)
向最终用户显示超过相似度值的特定阈值的记录,以供审阅
最后,还有一个部分自动化的过程,您可以根据最终用户提供的一些反馈更改一些参数。(这很棘手,我会把它留到其他帖子上;-))
关于algorithm - 结构化数据的模糊匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2430037/
我在一本书(Interview Question)中读到这个问题,想在这里详细讨论这个问题。请点亮它。 问题如下:- 隐私和匿名化 马萨诸塞州集团保险委员会早在 1990 年代中期就有一个绝妙的主意
我最近接受了一次面试,面试官给了我一些伪代码并提出了相关问题。不幸的是,由于准备不足,我无法回答他的问题。由于时间关系,我无法向他请教该问题的解决方案。如果有人可以指导我并帮助我理解问题,以便我可以改
这是我的代码 public int getDist(Node root, int value) { if (root == null && value !=0) return
就效率而言,Strassen 算法应该停止递归并应用乘法的最佳交叉点是多少? 我知道这与具体的实现和硬件密切相关,但对于一般情况应该有某种指南或某人的一些实验结果。 在网上搜索了一下,问了一些他们认为
我想学习一些关于分布式算法的知识,所以我正在寻找任何书籍推荐。我对理论书籍更感兴趣,因为实现只是个人喜好问题(我可能会使用 erlang(或 c#))。但另一方面,我不想对算法进行原始的数学分析。只是
我想知道你们中有多少人实现了计算机科学的“ classical algorithms ”,例如 Dijkstra's algorithm或现实世界中的数据结构(例如二叉搜索树),而不是学术项目? 当有
我正在解决旧编程竞赛中的一些示例问题。在这个问题中,我们得到了我们有多少调酒师以及他们知道哪些食谱的信息。制作每杯鸡尾酒需要 1 分钟,我们需要使用所有调酒师计算是否可以在 5 分钟内完成订单。 解决
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
我开始学习 Nodejs,但我被困在中间的某个地方。我从 npm 安装了一个新库,它是 express -jwt ,它在运行后显示某种错误。附上代码和错误日志,请帮助我! const jwt = re
我有一个证书,其中签名算法显示“sha256rsa”,但指纹算法显示“sha1”。我的证书 SHA1/SHA2 的标识是什么? 谢谢! 最佳答案 TL;TR:签名和指纹是完全不同的东西。对于证书的强度
我目前在我的大学学习数据结构类(class),并且在之前的类(class)中做过一些算法分析,但这是我在之前的类(class)中遇到的最困难的部分。我们现在将在我的数据结构类(class)中学习算法分
有一个由 N 个 1x1 方格组成的区域,并且该区域的所有部分都是相连的(没有任何方格无法到达的方格)。 下面是一些面积的例子。 我想在这个区域中选择一些方块,并且两个相邻的方块不能一起选择(对角接触
我有一些多边形形状的点列表,我想将其包含在我页面上的 Google map 中。 我已经从原始数据中删除了尽可能多的不必要的多边形,现在我剩下大约 12 个,但它们非常详细以至于导致了问题。现在我的文
我目前正在实现 Marching Squares用于计算等高线曲线,我对此处提到的位移位的使用有疑问 Compose the 4 bits at the corners of the cell to
我正在尝试针对给定算法的约束满足问题实现此递归回溯函数: function BACKTRACKING-SEARCH(csp) returns solution/failure return R
是否有包含反函数的库? 作为项目的一部分,我目前正在研究测向算法。我正在使用巴特利特相关性。在 Bartlett 相关性中,我需要将已经是 3 次矩阵乘法(包括 Hermitian 转置)的分子除以作
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎与 help center 中定义的范围内的编程无关。 . 关闭 8 年前。 Improve
问题的链接是UVA - 1394 : And There Was One . 朴素的算法是扫描整个数组并在每次迭代中标记第 k 个元素并在最后停止:这需要 O(n^2) 时间。 我搜索了一种替代算法并
COM 中创建 GUID 的函数 (CoCreateGUID) 使用“分散唯一性算法”,但我的问题是,它是什么? 谁能解释一下? 最佳答案 一种生成 ID 的方法,该 ID 具有一定的唯一性保证,而不
在做一个项目时我遇到了这个问题,我将在这个问题的实际领域之外重新措辞(我想我可以谈论烟花的口径和形状,但这会使理解更加复杂).我正在寻找一种(可能是近似的)算法来解决它。 我有 n 个不同大小的容器,
我是一名优秀的程序员,十分优秀!