python - Levenshtein两个文件上的距离花费太多时间-6ren

python - Levenshtein两个文件上的距离花费太多时间

转载作者：行者123 更新时间：2023-12-02 10:29:57

28

4

我是编程新手，正在构建文件相似性查找器，该查找器可发现两个文件的相似性。
到目前为止，我将文件存储为两个字符串，然后使用levenshtein距离来查找文件的相似程度。
问题是，没有levenshtein距离的执行时间是206ms，这是由于文件到字符串的转换所致。
当我使用levenshtein距离时，执行时间高达19504ms
将文件转换为字符串所需时间的将近95倍，这成为我项目中的瓶颈
任何帮助，将不胜感激
我对C，C++和Python感到很满意。如果您能指出任何消息来源，我将不胜感激
这是我用于计算Levenshtein距离的函数的C++代码:

//LEVENSHTEIN
int levenshtein(std::string a, std::string b){
  int len_a = a.length();
  int len_b = b.length();
  int d[len_a + 1][len_b+1];

  for(int i = 0; i < len_a + 1; i++)
    d[i][0] = i;

  for(int j = 0; j < len_b + 1; j++)
    d[0][j] = j;

  for(int i = 1; i < len_a + 1; i++){
    for(int j = 1; j < len_b + 1; j++){
      if(a[i - 1] == b[j - 1]){
        d[i][j] = d[i - 1][j - 1];
      }
      else{
        d[i][j] = 1 + min(min(d[i][j-1],d[i-1][j]),d[i-1][j-1]);
      }
    }
  }

  int answer = d[len_a][len_b];

  return answer;
}

我只需要比较两个文件，而不是更多。我了解了levenshtein中trie的用法，但这对于将多个字符串与源进行比较很有用。除此之外，我没有太多运气

最佳答案

有一个名为nltk的软件包。看看这个。

from nltk import distance
print(distance.edit_distance('aa', 'ab'))

输出:

关于python - Levenshtein两个文件上的距离花费太多时间，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62624118/

28

4

0

文章推荐： linux - "In-source builds are not allowed"在 cmake

arrays - 花费 O(1) 时间的数组访问是否可以改进？
我一直在读一本分配给类(class)的书，它提到数组访问需要 O(1) 时间。我意识到这非常快(也许尽可能快)，但是如果您有一个循环必须多次引用它，那么分配一个临时变量以在数组中查找值有什么好处吗？或
MySQL - 查询性能问题 - 花费 25 秒以上
我一直试图找出为什么这个查询花了这么长时间。以前，它的执行时间约为 150 毫秒到 200 毫秒，但现在需要 25 秒或更长时间。这是从昨晚到今天之间的事。唯一改变的就是将数据添加到表中。根据下面的
javascript - ng-if 花费 500 个观察者 - 性能
我有一个 ng repeat 重复数据。 - data.image(src)部分为null，src=null的不再重复。我用一个简单的 ng-if 解决了它。
phpunit --path-coverage(分支覆盖)花费 100 倍以上的时间
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率，大约需要 4 分钟。但是 pcov 不支持分支覆盖，所以我决定使用 xdebug。使用 xdebug 测试执行，
c# - AutoMapper 花费 4 秒绘制 19 个对象
我已经被这个问题困扰了一段时间了，我被难住了。 Automapper 需要 4 秒来映射 19 个对象。在我的机器(24GB 内存，3.6Ghz i7)上，该操作应该花费毫秒或纳秒。这是映射调用。
phpunit --path-coverage(分支覆盖)花费 100 倍以上的时间
我有一个包含大量测试的 Laravel 项目。我正在使用 pcov 来计算代码覆盖率，大约需要 4 分钟。但是 pcov 不支持分支覆盖，所以我决定使用 xdebug。使用 xdebug 测试执行，
java - TCP 连接比 ping 花费 X100 更长的时间
我在机器 A 上有一个 java 进程通过 TCP 与机器 B 上的 Tomcat 通信。 TCP 连接(只是 syn-syn/ack 交换)始终需要 100 毫秒的数量级，而 ping 请求需要 1
asp.net - 花费 200 万条记录的 Asp.Net GridView
我做了一项任务，从 sqlserver 获取超过 200 万条记录并将它们填充到 Asp.net GridView 中。问题是，查询需要超过 2 分钟才能获得记录，而我的查询现在已经完全优化。当我
javascript - 花费 X 秒并将其转换为 h :m:s 的最有效/最短方法
我希望将 165 秒变成 2:40 而不是 0:2:45 函数需要能够适应秒值的大小。我知道有无数种方法可以做到这一点，但我正在寻找一种干净的方法来做到这一点，除了 jQuery 之外没有任何外部库

首页

博学

6Ren·AI

商城

python - Levenshtein两个文件上的距离花费太多时间