- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我希望使用滚动哈希函数,这样我就可以对非常大的字符串的 n-gram 进行哈希处理。
例如:
“stackoverflow”,分成 5 克将是:
"stack", "tacko", "ackov", "ckove", "kover", "overf", "verfl", "erflo", "rflow"
这是滚动哈希函数的理想选择,因为在我计算出第一个 n-gram 哈希后,接下来的计算相对便宜,因为我只需删除第一个哈希的第一个字母并添加新的最后一个字母第二个哈希。
我知道通常这个哈希函数是这样生成的:
H = c1ak − 1 + c2ak − 2 + c3ak − 3 + ... + cka0 其中 a 是常数,c1,.. .,ck 为输入字符。
如果您在 Rabin-Karp string search algorithm 上点击此链接,它指出“a”通常是一些大素数。
我希望我的哈希存储在 32 位整数中,那么“a”应该有多大的素数,这样我就不会溢出我的整数?
是否存在我已经可以使用的此哈希函数的现有实现?
这是我创建的一个实现:
public class hash2
{
public int prime = 101;
public int hash(String text)
{
int hash = 0;
for(int i = 0; i < text.length(); i++)
{
char c = text.charAt(i);
hash += c * (int) (Math.pow(prime, text.length() - 1 - i));
}
return hash;
}
public int rollHash(int previousHash, String previousText, String currentText)
{
char firstChar = previousText.charAt(0);
char lastChar = currentText.charAt(currentText.length() - 1);
int firstCharHash = firstChar * (int) (Math.pow(prime, previousText.length() - 1));
int hash = (previousHash - firstCharHash) * prime + lastChar;
return hash;
}
public static void main(String[] args)
{
hash2 hashify = new hash2();
int firstHash = hashify.hash("mydog");
System.out.println(firstHash);
System.out.println(hashify.hash("ydogr"));
System.out.println(hashify.rollHash(firstHash, "mydog", "ydogr"));
}
}
我使用 101 作为素数。我的哈希是否会溢出有关系吗?我认为这是可取的,但我不确定。
这看起来是解决此问题的正确方法吗?
最佳答案
我记得一个略有不同的实现,它似乎来自 sedgewick 的一本算法书籍(它还包含示例代码 - 尝试查找它)。这是调整为 32 位整数的摘要:
您使用模运算来防止您的整数在每次操作后溢出。
初始设置:
首先计算第一个n-gram的哈希值:
h = 0
for i from 1 to M:
h = (h*d + c[i]) mod q
对于接下来的每一个 n-gram:
for i from 1 to lenght(c)-M:
// first subtract the oldest character
h = (h + d*q - c[i]*dM) mod q
// then add the next character
h = (h*d + c[i+M]) mod q
在减去最早的字符之前必须添加 d*q 的原因是,由于先前的模运算导致的小值,您可能会遇到负值。
包含错误,但我认为您应该明白了。尝试找到 sedgewick 的算法书籍之一以获取详细信息、更少的错误和更好的描述。 :)
关于c# - Rabin-Karp 字符串搜索算法中使用的滚动哈希函数是否有任何有效的实现?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/2314193/
我从这个网站理解了 Rabin-Karp 算法:https://www.geeksforgeeks.org/rabin-karp-algorithm-for-pattern-searching/ 他们
在 Coursera 视频之一中,Rabin-Karp 滚动哈希 (http://en.wikipedia.org/wiki/Rolling_hash) 显示为: public static long
我的 previous question属于通用字符串搜索算法。我正在研究 Rabin-Karp 算法,我有一个函数模板,例如: RabinKarpMatch(char *Text, char *Se
我在实现 Karp-Rabin 的简单版本时遇到问题模式行进者;我没有得到预期的结果。这是我的例子; string='today is a good day' sub='good' 我想在上面的字符串
我正在阅读 Cormen 等人的《算法导论》中有关字符串算法的内容 以下是关于一些初等数论符号的文本。 注意:在下文中将 == 称为模等价。 给定一个整数除以另一个整数的余数的定义明确的概念,提供特殊
我正在尝试更详细地了解 Edmonds-Karp 算法,并且很想知道它使用什么算法计算每次迭代中从 s 到 t 的最短路径(最少边数) 最佳答案 广度优先搜索。您可能想阅读 Wikipedia ent
Hopcroft–Karp 算法求二部图中最大基数匹配的论文最后两段: https://dl.dropboxusercontent.com/u/64823035/04569670.pdf The ex
rolling hash Rabin-Karp算法中hashcode值过大如何处理?我使用模运算来避免负数,但是当哈希码超过我的模数(N = 83559671)时会出现问题。我将我的基数设置为素数(计
谁能给我 karmarkar-karp 差分算法的伪代码,我不明白。如果有它的可视化/演示就更好了。 最佳答案 它也以降序排列数字开始。 这里是列表[8,7,6,5,4]的排序结果 在每一步,算法都会
我目前正在进行一个项目,以图形方式解释 Hopcroft-Karp 算法。 我正在使用 Wikipedia article 中的伪代码. 我还在 Stack Overflow 上看到了这个算法的实现
我正在为 Rabin-Karp 算法寻找高效的哈希函数。这是我的实际代码(C 编程语言)。 static bool f2(char const *const s1, size_t const n1,
我一直在使用 C++ 编写 Rabin-Karp 字符串匹配函数,但没有得到任何结果。我感觉我没有正确计算某些值,但我不知道是哪一个。 原型(prototype) void rabinKarp(str
我有兴趣实现 Rabin-Karp 算法来搜索 wiki 上所述的子字符串:http://en.wikipedia.org/wiki/Rabin-Karp_string_search_algorith
我希望使用滚动哈希函数,这样我就可以对非常大的字符串的 n-gram 进行哈希处理。 例如: “stackoverflow”,分成 5 克将是: "stack", "tacko", "ackov",
我正在尝试实现用于查找子字符串的 Rabin-Karp;我卡在了滚动哈希(尝试使用 formula suggested in Wikipedia )。 #define MOD 1000000007 u
我正在使用 Rabin–Karp 算法来检查任意两个源代码文件是否存在抄袭所以首先我简单地在 c# 中实现它的算法,这里是它的代码,但它的平均和最佳情况下的运行时间是 O(n+m) 在空间 O(p)
我正在尝试实现 Karmarkar-Karp 启发式数字分区算法的 k 分区版本。但我正在为它的第二阶段而苦苦挣扎,其中数字分区是根据所得的差异集重建的。 我能找到的唯一用一些伪代码彻底描述第二阶段的
所以我正在解决 this问题(Rabin Karp 的算法)并编写了以下解决方案: private static void searchPattern(String text, String patt
我正在尝试制作 HopcroftKarpBipartiteMatching,但没有演示,或者我找不到其他任何东西来帮助我使用该库。我无法从文档中弄清楚实例化 HopcroftKarpBipartite
对于这个可能重复的问题,我们深表歉意。 我正在尝试将滚动散列与 Karp Rabin 一起使用。我查看了滚动散列的不同实现,我想知道我哪里出错了。尽管文本具有模式,但使用哈希的匹配似乎根本没有发生。附
我是一名优秀的程序员,十分优秀!