- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我坐在这里用 Java 为我的主程序编写一些算法(这是迄今为止的第一个)。我对 levenshtein 算法进行了很好的编程,这要归功于 wiki 对新手的伪代码非常好,还有一个很好的教程 :D
然后我决定升级到 Damerau 并添加了额外的行,但后来我读到它不是 DL 算法而是 OptimalStringAlignmentDistance。我尝试阅读 actionscript 代码以了解我还需要添加什么才能将其添加到 DL,但却感到困惑。我去过不同的地方,代码看起来与 Java 相似,但他们也都使用了错误的伪代码。
折腾了半天就放弃了,决定在这里问问。有没有人可以帮助我将此代码升级到 Java 中的 Damerau-Levenshtein?
public class LevensteinDistance {
private static int Minimum(int a, int b, int c) {
return Math.min(Math.min(a, b), c);
}
private static int Minimum (int a, int b) {
return Math.min(a, b);
}
public static int computeLevensteinDistance(String s, String t){
int d[][];
int n; // length of s
int m; // length of t
int i; // iterates through s
int j; // iterates through t
char s_i; // ith character of s
char t_j; // jth character of t
int cost; // cost
n = s.length ();
m = t.length ();
if (n == 0) {
return m;
}
if (m == 0) {
return n;
}
d = new int[n+1][m+1];
for (i = 0; i <= n; i++) {
d[i][0] = i;
}
for (j = 0; j <= m; j++) {
d[0][j] = j;
}
for(i = 1; i <= n; i++) {
s_i = s.charAt (i - 1);
for(j = 1; j <= m; j++) {
t_j = t.charAt (j - 1);
if(s_i == t_j){
cost = 0;
}else{
cost = 1;
}
d[i][j] = Minimum(d[i-1][j]+1, d[i][j-1]+1, d[i-1][j-1] + cost);
if(i > 1 && j > 1 && s_i == t_j-1 && s_i-1 == t_j){
d[i][j] = Minimum(d[i][j], d[i-2][j-2] + cost);
}
}
}
return d[n][m];
}
// public static void main(String[] args0){
// String a = "I decided it was best to ask the forum if I was doing it right";
// String b = "I thought I should ask the forum if I was doing it right";
// System.out.println(computeLevensteinDistance(a, b));
// }
}
这是 Damerau–Levenshtein distance algorithm 的维基百科页面
最佳答案
您的问题是在条件中引用字符串中的前一个字符。在您的原始代码中,您有:
if(i > 1 && j > 1 && s_i == t_j-1 && s_i-1 == t_j){
d[i][j] = Minimum(d[i][j], d[i-2][j-2] + cost);
}
问题是值 t_j-1 和 s_i-1。这些表示 s 和 t 的第 i 个字符减 1,其中算法表示您想要第 (ith -1) 个字符。例如,如果字符串 s 是“AFW”并且 i 是 1 那么
s_i - 1 = E; //the character value (s[1]='F') minus 1 = 'E'
s.charAt(i-1) = A; //i-1 = 0, s[0] = 'A'
所以你的条件应该是:
if(i > 1 && j > 1 && s_i == t.charAt(j-1) && s.charAt(i-1) == t_j) {
d[i][j] = Minimum(d[i][j], d[i-2][j-2] + cost);
}
编辑:不幸的是,我无法通过阅读代码来理解算法,但是这里是 Java 维基百科页面中 ActionScript 示例的翻译,它提供了与您的示例匹配的输出:
public static int damerauLevenshteinDistance(
String a, String b, int alphabetLength) {
final int INFINITY = a.length() + b.length();
int[][] H = new int[a.length()+2][b.length()+2];
H[0][0] = INFINITY;
for(int i = 0; i<=a.length(); i++) {
H[i+1][1] = i;
H[i+1][0] = INFINITY;
}
for(int j = 0; j<=b.length(); j++) {
H[1][j+1] = j;
H[0][j+1] = INFINITY;
}
int[] DA = new int[alphabetLength];
Arrays.fill(DA, 0);
for(int i = 1; i<=a.length(); i++) {
int DB = 0;
for(int j = 1; j<=b.length(); j++) {
int i1 = DA[b.charAt(j-1)];
int j1 = DB;
int d = ((a.charAt(i-1)==b.charAt(j-1))?0:1);
if(d==0) DB = j;
H[i+1][j+1] =
min(H[i][j]+d,
H[i+1][j] + 1,
H[i][j+1]+1,
H[i1][j1] + (i-i1-1) + 1 + (j-j1-1));
}
DA[a.charAt(i-1)] = i;
}
return H[a.length()+1][b.length()+1];
}
private static int min(int ... nums) {
int min = Integer.MAX_VALUE;
for (int num : nums) {
min = Math.min(min, num);
}
return min;
}
关于java - Levenshtein 到 Damerau-Levenshtein,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6033631/
我正在寻找 Damerau–Levenshtein 的实现PHP 的算法,但我的 friend google 似乎找不到任何东西。到目前为止,我必须使用 PHP 实现的 Levenshtein(没有
我坐在这里用 Java 为我的主程序编写一些算法(这是迄今为止的第一个)。我对 levenshtein 算法进行了很好的编程,这要归功于 wiki 对新手的伪代码非常好,还有一个很好的教程 :D 然后
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 问题必须表现出对正在解决的问题的最低限度的理解。告诉我们您尝试过的方法、为什么不起作用以及它应该 起作用
similar_text()中文汉字版 复制代码 代码如下: <?php &nbs
我实现了一个 levenshtein trie 来查找与给定单词相似的单词。 我的目标是有一种快速的方法来进行拼写纠正。 但是我发现有一种更快的方法可以做到这一点: 莱文斯坦自动机 我只是有一个问题.
说我的数据库中有以下两个字符串: (1) 'Levi Watkins Learning Center - Alabama State University' (2) 'ETH Library' 我的软
这是一个字符串 T : 'men shirt team brienne funny sarcasm shirt features graphic tees mugs babywear much rea
我想使用字符串相似度函数来查找数据库中损坏的数据。 我遇到了其中几个: 贾罗, 贾罗-温克勒, 编辑, 欧几里得和 Q-gram, 我想知道它们之间有什么区别以及它们在什么情况下效果最好? 最佳答案
我需要一些有关以下代码的帮助。在这种情况下,我需要找到与输入的单词最接近的单词来测试我将 word_0 设置为“pikaru”,它应该返回“pikachu”。 levenshtein 函数返回我们输入
我有一个脚本可以使用 Levenshtein 在数据库中搜索单词。当我搜索英文单词时一切正常,但是当我搜索俄语单词时,MySQL 控制台报错: [22007][1366] (conn=31079) I
列支敦士登在c编程中总是返回无限循环这是我的代码我尝试了很多解决方案并且我尝试存储变量并使用指针但总是有无限循环我认为这是因为3个递归调用但在列支敦士登算法的文档中我找到了这个实现 #include
有什么方法可以对数组使用 Levenshtein Distance例如我有一个包含多个文本的 div one,two,three,longtext,anything 和一个输入 // sometex
这是我为了好玩而编写的 Levenshtein 距离的并行实现。我对结果很失望。我在核心 i7 处理器上运行它,所以我有很多可用线程。但是,当我增加线程数时,性能会显着下降。我的意思是,对于相同大小的
我想对 mysql 查询结果执行编辑。 查询如下所示: $query_GID = "select `ID`,`game` from `gkn_catalog`"; $result_GID = $dbc
我有包含两个相似字符的字符串。两者都显示为带有 ogonek 的小“a”: ± ± (注意:根据渲染器,它们有时呈现相似,有时略有不同) 但是,它们是不同的: 第一个字符的特征: 在 PostgreS
我有一个足够有效的查询,但我想通过在查询参数和相关字段之间使用 levenshtein 对结果进行排序。 现在我在 ES 中进行查询,然后在我的应用程序中进行排序。现在我正在测试脚本字段。这是脚本 i
我使用此查询来搜索公司详细信息 select * from company_details where levenshtein_ratio('New York Life Insurance Compa
我正在寻找一个字符串比较指标 ala Levenshtein,当字符串中的字符被打乱时,它也可以工作。有谁知道这样的指标?如果有一个 Python 模块可以计算这样的指标,那就太好了。谢谢! 最佳答案
R 中有一个名为stringdist 的package,它包含计算Levenshtein 字符串距离的函数。这个包有两个问题: 1st 它不适用于大字符串,例如: set.seed(1) a.str
我正在编写一个使用比较来确定模糊匹配的脚本,因此我正在使用 Levenshtein 功能。 不幸的是,当我在终端窗口中运行 easy_install python-Levenshtein 时,当我在其
我是一名优秀的程序员,十分优秀!