- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
在我的 MySQL 表中,我有字段名称,它是唯一的。然而,字段的内容聚集在不同的地方。所以有可能我有 2 条记录具有非常相似的名称,而不是第二条记录由于拼写错误而被丢弃。
现在我想找到那些与另一个非常相似的条目。为此,我遍历所有记录,并通过再次遍历所有记录将名称与其他条目进行比较。问题是有超过 15k 条记录需要太多时间。有没有办法更快地做到这一点?
这是我的代码:
for($x=0;$x<count($serie1);$x++)
{
for($y=0;$y<count($serie2);$y++)
{
$sim=levenshtein($serie1[$x]['naam'],$serie2[$y]['naam']);
if($sim==1)
print("{$A[$x]['naam']} --> {$B[$y]['naam']} = {$sim}<br>");
}
}
}
最佳答案
序言:这样的任务总是很耗时,而且总会有一些对漏掉。尽管如此,还是有一些想法:
假设 $series1
和 $series2
具有相同顺序的相同值,您不需要在内部循环中遍历整个第二个数组时间。在这个用例中,您只需要评估每个值对一次 - levenshtein('a', 'b')
就足够了,您不需要 levenshtein('b', 'a ')
以及(你也不需要 levenstein('a', 'a')
)
在这些假设下,您可以这样编写您的函数:
for($x=0;$x<count($serie1);$x++)
{
for($y=$x+1;$y<count($serie2);$y++) // <-- $y doesn't need to start at 0
{
$sim=levenshtein($serie1[$x]['naam'],$serie2[$y]['naam']);
if($sim==1)
print("{$A[$x]['naam']} --> {$B[$y]['naam']} = {$sim}<br>");
}
}
网络中有 levenshtein() 实现作为 MySQL 函数的示例。这里有一个关于 SO 的例子:How to add levenshtein function in mysql?
如果您熟悉复杂的 SQL,您可以将繁重的工作委派给 MySQL 并至少获得一点性能,因为您没有将整个 16k 行提取到 PHP 运行时。
当然,您必须为每条记录运行一次该函数,但在初次运行后,您只需检查自上次运行以来的新条目。安排一个每天/每周/每月一次的 chronjob.. 检查所有新记录。您的表中需要一个 inserted_at
列,并且仍然需要将新名称与所有其他名称条目进行比较。
a) 如果等待是可以接受的,一旦插入新记录就进行检查,以便将其写入日志或直接反馈给用户。 (切线:对于像 http://gearman.org/ 这样的异步任务队列,这可能是一个很好的用例 -> 在后台启动一个新的检查进程,立即返回插入的成功消息)
b) PHP 还有另外两个函数可以帮助搜索几乎相似的字符串:metaphone()和 soundex() .这些函数生成抽象哈希值,表示字符串在说话时的发音。您可以在每次插入时生成(一个或两个)这些哈希值,将它们作为单独的字段存储在您的表中,并使用简单的 SQL 函数来查找具有相似哈希值的记录
关于php : speed up levensthein comparing, 10k + 记录,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30080378/
好吧,我是编程新手,我想知道如何打印某些字段的值。例如,我有一个速度,单位是节(21 节),如何将“节”部分添加到我的代码中,这样我就不会只打印整数?我希望它有 [number] 节。这是我到目前为止
我正在研究堆算法。 我认为堆算法作为函数会比纯代码慢。 所以我做了一个测试。但我发现函数式代码比纯代码快得多。 我觉得这很奇怪,我不知道为什么。 enter image description her
除了明确的清晰度,我们为什么要坚持:car.getSpeed()和 car.setSpeed(55)当这也可以使用时:car.speed()和 car.speed(55) 我知道 get() 和 se
我正在尝试实现 google speed limit API 来计算从一个位置到另一个位置所需的最低速度。但是当我在浏览器中运行时出现以下错误。 谁能帮我解决这个问题?谢谢 "error": {
我正在创建一个 LAN 速度测试,它在指定位置创建一个指定大小的数据文件,并记录创建/读取它的速度。在大多数情况下,这是正常工作的,只有一个问题:读取速度快得离谱,因为它所做的只是计算文件打开所需的时
我有以下函数,它会为生成的每个订单项调用。有谁知道如何加快速度? private String getDetails(String doc){ String table=""; jav
我正在尝试使用 C#、sdl.net 开发一个简单的 2d 赛车游戏(自上而下查看)。现在,我正在尝试管理我的车的速度、加速度和刹车。我的问题是算法。我的循环 (Events_Tick) 每秒执行 5
我正在读取一个包含 500000 行的文件。我正在测试多线程如何加速进程.... private void multiThreadRead(int num){ for(int i=1; i"+
Java Robot 类允许移动鼠标,就好像移动了实际的物理鼠标一样。 但是,如何以人性化(而非即时)的方式将鼠标从 Point1 移动到 Point2?也就是说,如何设置移动速度? 如果Robot类
我无法找到有关此主题的现有答案。 我正在运行一个连接到远程 redis 服务器(不在同一主机上)的 redis 客户端。 我可以通过域名或服务器的 IP 连接,即我可以通过 redis-cli -h
我正在尝试将 GPS 功能添加到我的 iPhone 应用程序中。这是一款在步行或运行时使用的锻炼应用程序。所以我想使用 GPS 来显示人的移动速度(以英里/小时和分钟/英里为单位)。 我应该如何配置
所以我有一个以“速度”移动的对象,现在我设置了代码,当该对象与另一个对象碰撞时,该对象的速度会降低。我尝试通过改变速度来实现这一点,当速度在 3 秒后改变时,将其改回原来的速度。 这是我自己尝试过的,
这是我的 table : CREATE TABLE `tab_adasf` ( `adasf_id` bigint(20) unsigned NOT NULL AUTO_INCREMENT,
我正在寻找一种加速文件加载的方法: 数据包含约100万行,制表符以“\t”(tabulation char)分隔,utf8编码,使用以下代码解析完整文件大约需要9秒。但是,我希望几乎是一秒钟! def
我创建了一个 python 程序,该程序使用 ArcGIS 的“CostPath”函数在 shapefile“selected_patches.shp”中包含的几个多边形之间自动构建最低成本路径
我有 36 个人和 6 张 table 。我想围绕每张 table 组成 6 个小组。然后再组成 6 个其他组,再组成 6 个其他组……直到每个人都遇到每个人,但没有人遇到两次。 到目前为止,我想出了
我正在努力提高我的 Google Page Speed 得分。目前移动设备为 51/100,桌面设备为 83/100。 其中一个问题是“消除首屏内容中阻止渲染的 JavaScript 和 CSS”。适
所以我在几个小时内一直在寻找为什么我的 iPhone 应用程序讨厌我。这是我得到的错误:警告:“speedView”的局部声明隐藏了实例变量。这是我的 .m 文件 @implementation Ma
我最近做了一个网站,但加载速度很慢。我的 Firebug 页面速度得分是 82/100。我觉得这很好。我的网站有 2 个图像,它们有 100KB 和一些其他小图像,用于子弹、箭头和不超过 50KB 的
我正在用 python 构建词形还原器。因为我需要它实时运行/处理相当大量的数据,所以处理速度是最重要的。数据:我有所有可能的后缀,这些后缀链接到它们可以组合的所有词类型。此外,我还有与其词型和引理相
我是一名优秀的程序员,十分优秀!