ruby - Rabin Karp Rolling Hash 生成的哈希未反射(reflect)在文本上-6ren

ruby - Rabin Karp Rolling Hash 生成的哈希未反射(reflect)在文本上

转载作者：数据小太阳更新时间：2023-10-29 08:05:37

25

4

注意:很多可能的重复项，但似乎没有解决我的问题。

我正在研究基于 MOSS 的抄袭检测.

在成功实现过滤掉所有必要细节(评论、标点符号等)后，我使用滚动哈希实现 (Rabin Karp) 对内容进行哈希处理

然而，在两个源代码文本文件中匹配的哈希值，具有非常不同的底层文本(没有抄袭但相同的哈希值)

我实现的算法(Ruby)-->(部分片段)

 #Preprocessing from RobinKarp Algorithm
  for c in 0...k do
    text_hash=(radix*text_hash+text_to_process[c].ord)%q
  end

  #Main loop
  for c in 0...loop do   
        text_hash=((radix*text_hash-(text_to_process[c].ord)*highorder)+(text_hash[c+k].ord))%q

我的实现有问题吗？还是我指定的参数有问题？

我取基数=34(我不确定它是否是正确的值，我假设剥离的文本将只包含字母+一些特殊字符，如'+'，'-'，'*'，'/'所以粗略估计总共 34字符)

我将 q(prime) 设为 101

这是我正在处理的碰撞问题吗？关于如何解决该问题的任何指示？

最佳答案

我注意到当 q = 101 时，只有 101 个可能的哈希值 - 0、1、2...100。你试过增加q吗？另一种方法是查看散列值是否看起来像是在 0,1..q-1 的可能值内随机选择的值。

当然，您还应该在有重复字符串的情况下测试您的程序 - 失败可能是任何问题的另一种症状，也会导致冲突，并且更容易找到和调试。

关于ruby - Rabin Karp Rolling Hash 生成的哈希未反射(reflect)在文本上，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/8868124/

25

4

0

文章推荐： ruby - 为什么 Ruby 数组允许访问无效的范围索引？

文章推荐： ruby-on-rails - Ruby on Rails 路由的奇怪行为

文章推荐： Ruby 类间通信

文章推荐： ios - Shazam 或 Sound Hound 是如何工作的？

algorithm - Rabin Karp算法的一点修改版本的可行性
我正在尝试实现 Rabin Karp 算法的一些修改版本。我的想法是，如果我根据与每个字母相关的权重得到给定模式的哈希值，那么我就不必担心字谜，这样我就可以只选择字符串的一部分，计算它的哈希值并进行比
string - Rabin karp字符串匹配算法复杂度
在 rabin 算法中取模如何帮助降低本地 horners 规则字符串匹配的复杂性。请任何人解释最佳答案我猜按照 Horners 规则，你的意思是将字符串视为某个基数中的数字 ("abcd"= '
java - Rabin-Karp算法Java的滚动哈希算法
我一直在尝试理解算法类的 Rabin-Karp 算法。我在理解它时遇到了很多麻烦，所以我尝试实现它(我实际上不必实现它)。我想我正确地理解了滚动哈希函数以外的所有内容。我的算法目前只适用于模式 cha
algorithm - Rabin-Karp算法中如何选择模值？
我有一个关于选择 q 和 d 的问题 in Rabin-Karp algorithm用于搜索字符串。该算法使用值 q 作为模数，使用 d 作为哈希函数。如果我选择 q 作为 2 的幂并且 d=q-1
c# - Rabin Karp字符串匹配算法
我在网站的论坛上看到过这个 Rabin Karp 字符串匹配算法，我有兴趣尝试实现它，但我想知道是否有人能告诉我为什么变量 ulong Q 和 ulong D 是 100007 和 256分别:S？这
Python:Rabin-Karp算法散列
我实现 Rabin-Karp 算法只是为了好玩。我遇到了这个伪代码: RABIN -KARP -MATCHER (T, P, d, q) 1 n = T.length 2 m
c - Miller-Rabin 实现中的错误
我正在实现 Wikipedia's Miller-Rabin algorithm但似乎没有得到甚至模糊恰当的结果。 7, 11, 19, 23 等被报道为复合 Material 。事实上，当 k>12
c++ - Rabin-Karp 算法代码中的负哈希值
我从这个网站理解了 Rabin-Karp 算法:https://www.geeksforgeeks.org/rabin-karp-algorithm-for-pattern-searching/ 他们
primes - Miller-Rabin 素性测试的典型运行时间是什么？
我很清楚单个 Miller-Rabin 测试以三次对数时间运行。我知道蒙哥马利模幂和 GNFS 并且我不会问任何那些奇特的理论。我想知道的是，在特征硬件(例如，2.2 GHz Opteron 或某某显
c++ - Miller-Rabin 素性测试给出了错误的答案
我正在尝试制作 RSA 算法。为此，我需要 rabin-miller+witness+modular exponentiation(至少我需要使用它)。当我生成随机数以检查 rabin miller
java - Rabin-Karp 滚动哈希
在 Coursera 视频之一中，Rabin-Karp 滚动哈希 (http://en.wikipedia.org/wiki/Rolling_hash) 显示为: public static long
c - Rabin-Karp 字符串搜索算法
我的 previous question属于通用字符串搜索算法。我正在研究 Rabin-Karp 算法，我有一个函数模板，例如: RabinKarpMatch(char *Text, char *Se
python - (Miller-Rabin)如何处理大指数的数字？
我有 Miller-Rabin 实现 def MillerRabin(n,a): e = 0 q = n-1 while q % 2 == 0: e +=
python - Karp-Rabin 模式匹配算法的简单实现
我在实现 Karp-Rabin 的简单版本时遇到问题模式行进者；我没有得到预期的结果。这是我的例子； string='today is a good day' sub='good' 我想在上面的字符串
字符串 Rabin-Karp 基本数字符号
我正在阅读 Cormen 等人的《算法导论》中有关字符串算法的内容以下是关于一些初等数论符号的文本。注意:在下文中将 == 称为模等价。给定一个整数除以另一个整数的余数的定义明确的概念，提供特殊
java - Rabin-Karp 哈希码太大
rolling hash Rabin-Karp算法中hashcode值过大如何处理？我使用模运算来避免负数，但是当哈希码超过我的模数(N = 83559671)时会出现问题。我将我的基数设置为素数(计
c++ - Rabin-Karp 算法的最佳哈希函数是什么？
我正在为 Rabin-Karp 算法寻找高效的哈希函数。这是我的实际代码(C 编程语言)。 static bool f2(char const *const s1, size_t const n1,
c++ - Rabin-Karp 字符串匹配不匹配
我一直在使用 C++ 编写 Rabin-Karp 字符串匹配函数，但没有得到任何结果。我感觉我没有正确计算某些值，但我不知道是哪一个。原型(prototype) void rabinKarp(str
c++ - Rabin-Karp 算法
我有兴趣实现 Rabin-Karp 算法来搜索 wiki 上所述的子字符串:http://en.wikipedia.org/wiki/Rabin-Karp_string_search_algorith
c# - Rabin-Karp 字符串搜索算法中使用的滚动哈希函数是否有任何有效的实现？
我希望使用滚动哈希函数，这样我就可以对非常大的字符串的 n-gram 进行哈希处理。例如: “stackoverflow”，分成 5 克将是: "stack", "tacko", "ackov",

首页

博学

6Ren·AI

商城

ruby - Rabin Karp Rolling Hash 生成的哈希未反射(reflect)在文本上