- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我在数据库中有一个相当小的结构化记录集给定一条记录中包含的信息的一小部分,通过web表单提交(其结构与表模式相同),(让我们称之为测试记录),我需要快速绘制一个记录列表,其中最有可能与测试记录匹配,以及提供搜索项与记录匹配程度的置信度估计。此搜索的主要目的是发现是否有人试图输入与语料库中的记录重复的记录有一个合理的机会,测试记录将是一个骗局,并有一个合理的机会,测试记录将不会是一个骗局。
记录宽约12000字节,记录总数约为150000条表架构中有110列,95%的搜索将位于最常用搜索列的前5%。
这些数据包括姓名、地址、电话号码和其他行业特定的号码在语料库和测试记录中,它都是手工输入的,并且在单个字段中是半结构化的乍一看,你可能会说“用手给列加上权重,并在其中匹配单词标记”,但这并不容易。我也这么想:如果我得到一个电话号码,我想那将表明一个完美的匹配问题是,没有一个字段的标记频率不随数量级变化。一个电话号码可能出现在语料库中100次,也可能出现在语料库中1次其他领域也是如此。这使得在实地进行加权不切实际。我需要一个更细粒度的方法来获得合适的匹配。
我最初的计划是创建散列,顶级是字段名然后,我将从给定字段的语料库中选择所有信息,尝试清理其中包含的数据,并对经过清理的数据进行标记,在第二级对标记进行哈希处理,将标记作为键,将频率作为值。
我将使用频率计数作为权重:引用语料库中标记的频率越高,如果在测试记录中找到标记,则附加到该标记的权重越小。
我的第一个问题是给房间里的统计学家:我如何使用频率作为权重n、记录数f(t)、标记t出现在语料库中的频率、记录是原始记录而不是重复记录的概率o和测试记录在同一字段中包含相同t的情况下是记录x的概率p之间是否存在精确的数学关系?多个字段中多个标记匹配的关系如何?
既然我真诚地怀疑,有没有什么能让我更接近,但比一个完全武断的黑客充满魔力的因素更好呢?
除此之外,有人能做到吗?
我特别喜欢不涉及在数据库中维护另一个表的其他建议,比如令牌频率查找表。
最佳答案
你也许可以从这个不同但相似的问题中得到一些想法:
calculating-context-sensitive-text-correlation。
更具体地说,下面是一些想法和想法:
首先,承认使用非常不均衡(只有6到10个属性覆盖了95%的使用),您可以/应该对这些属性应用不对称的工作,即在编程时间和运行时CPU分配方面,为处理这些少数属性而不是100多个附加属性投入更多。
为匹配数据库中可能的重复项而提供的输入数据量相对较小,通常使用的属性集相对较小,这些属性的语义(电话号码、地址、名称……)显然很常见,这表明是一种手工制作的解决方案,而不是完全基于机器学习的解决方案。
注:此后的许多建议不必应用于所有属性(因为这些建议中只有不到十几个涵盖了几乎所有的用法,所以没有必要,至少首先要对其他属性进行大量投资。
规范化数据
如果不允许更改原始字段值,则可以将相应的列复制到“norm_xxx”coluumn中,其中xxx是原始名称。
什么,如何规范化可能因每个属性而异;对于“自由文本”之类的数据,请确保没有前导或尾随空格,单词之间只有一个空格,没有制表符和不可打印字符。使用全大写或全小写(尽管原始/用于显示的文本可能包含一个mix,但通过采用统一的大小写,处理速度会更快)。更具体地说,对于地址和/或公司名称,可以将常用术语转换为标准格式(ST表示街道、ST和ST等)(请确保保留此列表,因为它也将应用于用户搜索条件)标准化的一部分还可能是完全去掉一些噪音词(如公司名称末尾的CO,INC,GMBH)
创建几个计算列
例如,与文本相反的是,可以使用尾随通配符搜索属性
考虑对某些属性使用类似soundex的转换。
全文索引,单独,所有类似文本的列
在所有6到10个常用列上创建普通(SQL)索引
以上这些,仅仅是为实际比赛做的离线时间准备。现在。。用户输入他/她的查询…以下是一些处理方法
规范化搜索条件
运行几个搜索…
这有点棘手;执行这些搜索有几个部分冲突的目标。我们希望大大减少“潜在匹配”的数量:将所有150000条记录与用户提供的标准进行完全的一对一比较实际上是不切实际的;例如,某些匹配逻辑可能意味着计算数据库给定记录的字段与搜索标准之间的编辑距离。我们还想确保我们不排除“潜在匹配”列表中的记录,因为在说公司名称最后,我们要以排名的方式提供潜在匹配的列表。
执行这些搜索的方式遵循一些预先定义的启发式算法(我发现策略设计模式很好地工作,允许根据用户提供的输入在搜索方式上灵活)。简言之,我们在最具选择性/相关性的属性中搜索最具选择性的词,根据找到的“点击”次数,我们要么“或”(联合)要么“和”与其他搜索结果一起搜索,直到我们有几百条记录。
计算“潜在匹配”记录的每个属性与相应搜索条件之间的相似度值可能对这个值应用一个系数(允许将更大的权重称为公司名称[部分]与城市匹配)
统计完整记录的总体相似性值(与完整搜索条件相比)
向最终用户显示超过相似度值的特定阈值的记录,以供审阅
最后,还有一个部分自动化的过程,您可以根据最终用户提供的一些反馈更改一些参数。(这很棘手,我会把它留到其他帖子上;-))
关于algorithm - 结构化数据的模糊匹配,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2430037/
我正在学习 Javascript,我正在尝试创建一个简单的下拉菜单。我想要的功能的示例可以在 Google 主页的顶部菜单中看到,其中包含“更多”和“设置”下拉菜单。 我有一个使用 onclick()
我尝试捕捉 tinyMce 编辑器的模糊和焦点事件。 我为此找到了以下方法。 ed.onInit.add(function(ed) { tiny
这里完全被难住了。尝试一些很简单的东西,但它不起作用: $("input.input1, textarea.input1").focus(function(){ $(this).addClas
我有以下 jQuery 函数: 提交表单 $(".content").delegate('.entryButton','click', function() {var form = $(this).c
如何使用 jQuery 在焦点/模糊上切换元素的 CSS? $('.answerSpace').bind('blur', function(){ $('.normProf').toggleClass(
在我的 iPhone 应用程序中,我有一个黑白 UIImage。我需要模糊该图像(高斯模糊即可)。 iPhone 显然知道如何模糊图像,如 it does that when it draws sha
这个问题已经有答案了: Blurring an image via CSS? (6 个回答) 已关闭 7 年前。 我有一个场景。我想随着循环的进行模糊我的图像。我怎样才能做到这一点?这是我的代码。
这个错误是在子字符串方法上抛出的,我发现很多线程都在处理这个问题,但我遇到的问题似乎有所不同。我知道如果您的字符串短于子字符串(开始,结束)大小,它会抛出此错误,但在任何内容传递到方法调用之前都会抛出
是否有简单的解决方案可以在 Qt 中为图像添加运动模糊?还没有找到任何关于模糊的好教程。我需要一些非常简单的东西,我可以理解,如果我可以改变模糊角度,那就太好了。 最佳答案 Qt 没有运动模糊过滤器。
我的搜索框在正常状态下很小。焦点对准时,它会展开,并显示一个提交按钮。这样做是为了节省空间。现在,在模糊时,搜索框再次缩小,提交按钮消失。 问题是,通过使提交按钮成为“竞赛”以在正确的位置单击它,对提
您好,我正在使用 PngBitmapEncoder 从 Canvas 在内存中创建图像。 public void CaptureGraphic() { Canvas canvas = new
我已经搜索过谷歌、这个和其他论坛,但无济于事……太棒了,有没有可能有像 onMiddleClick="blur();"这样的东西?在单击鼠标中键时隐藏链接的焦点边框? 最佳答案 $('a').clic
我无法在我的应用程序中正确渲染我的纹理。我使用的艺术品是精确的,并且已经缩放且尺寸合适,但是当我在手机上渲染它时,我的纹理突然不如原始艺术品清晰/精确,我不明白为什么。 有人遇到过这个问题吗? 最佳答
这里有与上述主题相同的问题但没有得到答复 我这里有布局 我需要在底部布局中使用与顶部布局相同的图像,但使用模糊样式 设置 alpha 没有帮助 - TextView 也会影响 如何虚化down布局的背
我已经搜索了一段时间,但到目前为止没有找到适合我需要的东西。 ( This was helpful, but not convincing ) 从两个不同的来源,我得到两个不同的字符串。我想检查较短的
我有这样的代码: var passwordTextBox = angular.element("#password"); passwordTextBox.blur(function()
设置此 JQuery 函数无法正常工作。有时,如果我单击元素,什么也没有发生,并且它会触发隐藏可折叠菜单的功能,如果单击文档上的任意位置,则不会重定向到正确的 href。有什么更好的方法吗? HTML
尝试通过将坐标列表保存到数组来在多个位置裁剪我的图像后,裁剪区域中的字母变得非常模糊,我无法弄清楚原因。 原图看起来像 裁剪后的图像看起来像 题中代码如下: import numpy as np im
我知道我们可以调暗/模糊屏幕,如 this post 所示. 我应该怎么做才能使它的一部分变暗/模糊,使单个(或多个) View 没有任何效果,从而使整个屏幕具有突出显示 View 的效果? 此外,即
如果有人曾经向 digg 提交过故事,它会检查该故事是否已经提交,我假设是通过模糊搜索。 我想实现类似的东西,想知道他们是否使用开源的 php 类? Soundex 不这样做,句子/字符串的长度可达
我是一名优秀的程序员,十分优秀!