- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我一直在尝试在 C++ 中实现一个 levenshtein 距离函数,它根据要替换或插入的字符为替换和插入赋予不同的权重。
成本是根据 qwerty 键盘上按键的距离计算的。例如,在标准的编辑距离算法中,google、hoogle、zoogle的距离是一样的; 1. 我想要的是这些不同的距离。类似于 google -> hoogle = 1,google -> zoogle = 4,hoogle -> zoogle = 5。
我关注了 Wikipedia algorithm使用矩阵进行内存并在 C++ 中实现。这是我的功能。
int levDist(string s, string t) {
int i,j,m,n,temp,subsitutionCost, deletionCost, insertionCost, keyDist;
deletionCost = 1;
m = s.length();
n = t.length();
int d[m+1][n+1];
for(i=0;i<=m;i++)
d[i][0] = i;
for(j=0;j<=n;j++)
d[0][j] = j;
for (j=1;j<=n;j++)
{
for(i=1;i<=m;i++)
{
// getKeyboardDist(char a, char b) gives distance b/w the two keys
keyDist = getKeyboardDist(s[i-1],t[j-1]);
subsitutionCost = (s[i-1] == t[j-1]) ? 0 : keyDist;
// this line is the one i think the problem lies in
insertionCost = (i > j) ? getKeyboardDist(s[i-1],t[j-2]) : getKeyboardDist(s[i-2],t[j-1]);
insertionCost = insertionCost ? insertionCost : 1;
d[i][j] = min((d[i-1][j] + deletionCost),
min((d[i][j-1] + insertionCost),
(d[i-1][j-1] + subsitutionCost)));`
}
}
return d[m][n];
}
我相信现在替换工作正常,但问题是插入。我不知道如何找到哪些字符来获得插入之间的距离。尤其是在字符串的开头或结尾插入的情况。
我将不胜感激,如果需要任何其他信息,请告诉我。
提前致谢。
最佳答案
您尝试做的事情对于替换是有意义的。您假设一个人试图敲击键 X 比在远处敲击物理上靠近 X 的键更容易出错。
对于插入和删除没有太大意义,因为敲击额外键(插入错误)或跳过键击(删除错误)的行为与键距离没有任何明显关系。
您可能被此处“距离”的两种不同含义误导了。 Levenshtein 距离是在插入/替换/删除操作中的字符串之间测量的。键盘距离是一种物理分离。这些是碰巧用同一个词描述的苹果和橙子。它们混合得不好。
您正在尝试确定 Levenshtein 操作的权重。键之间的物理距离为替换赋予了合理的权重。
插入和删除的权重——每个只涉及一个字符——与物理分离没有任何明显的关系。
您真正需要的是有关人们实际错误插入和删除哪些键的频率数据。您会赋予最常见的相对较低的权重和最不常见的较高权重。
@user6952491 认为重复前一个 key 可能是高频插入错误的想法有其优点,但很难将其扩展到完整的加权方案。
如果您有猜测的心情,您可以假设在键盘中间附近比在边缘更容易错误地插入一个键。假设 f
和 j
获得最低权重,而像 ~
这样的字符被移动并且在键盘极端处获得高权重,因为你不太可能不假思索地打字的 body Action 。
我将留给您对删除进行类似的猜测。
对于一般的打字,我的猜测是键盘输入错误与拼写错误的关系至少与物理错误一样多。也就是说,人们会输入“recieve”是因为他们忘记了“i 在 e 之前,除了在 c 之后”这一规则,而不是因为 i 相对于 e 的键盘位置。
其他类型的打字,例如计算机代码,很可能有完全不同的错误模式。想起忘记的分号!那些将具有非常低的权重!
因此,我几乎可以肯定,现代拼写检查器提供的建议 Root 于机器学习算法,这些算法从过去成千上万人在类似任务中犯过的错误中得出结论,而不是基于键盘距离的简单指标.
关于c++ - 插入和替换成本不统一的 Levenshtein 距离 :,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/40002255/
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
声明引用会导致运行时成本吗? Typename a; auto& b=a; func(b); 在循环内声明引用会导致多倍的运行时成本吗? Typename a=Typename();//defa
给定一组代表(成本, yield )的样本数据 items = [ (1000, 300), (500, 150), (400, 120), (300, 100), (200, 50), (55, 2
我从 link 得到这个其中谈到了外部归并排序。 来自幻灯片 6 示例:使用 5 个缓冲页,对 108 页文件进行排序 第 0 次:[108/5] = 22 次排序运行,每次运行 5 页(最后一次运行
使用 Javascript 在 localStorage 中查找值的速度有多快? 有没有人有指向任何性能测试的链接,这些测试表明是否值得在 JavaScript 对象中缓存数据?或者浏览器是否已经缓存
我正在尝试创建一个电子表格,以跟踪具有已知保质期的元素的当前和 future 成本。这包括产品是什么、产品成本、产品生命周期(以月为单位)和最后购买日期。 我已经尝试了几种方法来摆弄 Excel 公式
我正在使用最佳匹配算法在 TraMineR 中进行序列分析。不幸的是,我的 由于右删失数据,序列长度不等 .我的序列的最小长度是 5,最大长度是 11。长度的变化对于我感兴趣的序列之间的差异没有意义。
我读过一些文章说你应该将成本设置为至少 16 (216),但其他人说 8 左右就可以了。 是否有任何官方标准应该将成本设置为多高? 最佳答案 您应该使用的成本取决于您的硬件(和实现)的速度。 一般来说
我记得在我的架构类中假设L1缓存命中为1个周期(即与寄存器访问时间相同),但是在现代x86处理器上实际上是真的吗? L1缓存命中需要几个周期?与注册访问权限相比如何? 最佳答案 这是一篇很棒的文章:
我正在尝试确定来自托管我的 azure 函数的 azure 存储帐户的成本。我主要在本地进行开发,并使用 azure 存储模拟器并运行 func start cmd。我的问题是,此设置是否仍然会增加我
我有一个为工作编写的大型复杂 VBA 脚本。我正在清理它,并注意到我可以用比我所做的更动态的方式定义我的数组。 最初我将数组定义为字符串,如下所示: Dim header_arr(6) As Stri
任何人都可以为我指定以下情况下的费用: 当使用快照监听器的查询监听集合并且集合中的一个文档将被添加或更新时,我是否需要为已更新的文档或查询中的所有文档付费? 示例:我在用户集合上有一个快照监听器,其中
摘要 我正在使用 Octave 和 Ling-Spam 语料库构建垃圾邮件与普通邮件的分类器;我的分类方法是逻辑回归。 较高的学习率会导致计算成本为 NaN 值,但它不会破坏/降低分类器本身的性能。
我正在从事一个项目,其中我的代码的吞吐量非常重要,经过一番考虑后我选择让我的程序线程化。 主线程和子线程都在两个共享字典中添加和删除。考虑到在 python 中锁定的性能,我一直在通过互联网查看一些输
所以我在 TCP 套接字上发送数据,以数据大小为前缀,如下所示: write(socket, &length, sizeof(length)); write(socket, data, length)
我正在评估 Azure 媒体服务作为我们正在构建的解决方案的托管平台。我已成功使用 DRM 设置动态加密并使用 Azure AD 设置内容保护。我还检查了定价,我知道您必须为编码作业(一次性)、流媒体
AWS S3 Java SDK 提供了一种方法 doesObjectExist()检查 S3 中是否存在对象。它内部使用什么操作?是吗GET , LIST , 或 HEAD ? 我的担忧主要与它的成本
我一直在使用 three.js 来试验和学习 GLSL 和 WebGL。我来自 3d 艺术世界,所以我了解网格、3d 数学、照明等的概念。虽然我确实查阅了 OpenGL 和 WebGL 文献(以及 g
我正在 Azure 中设计一个 Web 服务。是否可以计量每个最终用户的实际 Azure 平台使用成本? Azure 是否向最终用户提供计费服务? 最佳答案 如今的 Windows Azure 计费模
我目前在 MySql 中有一个表,如果我运行此查询,则有 730 万行,大小为 1.5GB: How to get the sizes of the tables of a mysql databas
我是一名优秀的程序员,十分优秀!