c# - 对大 N 应用 Rabin-Karp Hash-6ren

c# - 对大 N 应用 Rabin-Karp Hash

转载作者：塔克拉玛干更新时间：2023-11-03 03:51:08

27

4

我指的是 Rabin Karp Wikipedia article on Hash use.

在示例中，字符串 "hi" 使用质数 101 作为基数进行哈希处理。

hash("hi")= ASCII("h")*101^1+ASCII("i")*101^0 = 10609

这样的算法是否可以在 long 的最大值为 9,223,372,036,854,775,807 的 Java 或 C# 中实际使用？天真地，在我看来，哈希值似乎呈指数增长，并且具有足够大的 N(字符串长度)将导致 long 类型的溢出。例如，假设我的哈希字符串输入中有 65 个字符？

这是正确的，还是有永远不需要溢出的实现方法(我可以想象可能有一些懒惰的评估，它只将 ascii 和单位位置存储在素数基中)？

最佳答案

hash("hi")= ASCII("h")*101^1+ASCII("i")*101^0 = 10609

这只说对了一半。实际上，如果您实际计算值 s_0 * p^0 + s_1 * p^1 + ... + s_n * p^n，结果将是一个数字，其表示形式约为只要字符串本身，所以你没有得到任何东西。所以你实际上做的是计算

(s_0 * p^0 + s_1 * p^1 + ... + s_n * p^n) mod M

其中 M 相当小。因此，您的哈希值将始终小于 M。

因此，您在实践中所做的是选择 M = 2^64 并利用无符号整数溢出在大多数编程语言中都有明确定义的事实。实际上，Java、C++、C#中的64位整数的乘法和加法等价于乘法和加法取模2^64。

使用 2^64 作为模数不一定是明智的选择。事实上，您可以轻松构造一个包含大量冲突的字符串，从而引发 Rabin-Karp 的最坏情况行为，即 Ω(n * m) 匹配而不是 O(n + m )。

最好使用大质数作为模数，并获得更好的抗碰撞性。通常不这样做的原因是性能:我们需要明确地对每个加法和乘法使用模块化归约(添加 % M)。更糟糕的是，我们甚至不能再使用内置乘法，因为如果 M > 2^32 它可能会溢出。所以我们需要一个自定义的 MultiplyMod 函数，它必然比机器级乘法慢很多。

Is this correct, or are there methods of implementation which will never need to overflow (I can imagine possibly some lazy evaluation which merely stores the ascii and unit place in the prime base)?

正如我已经提到的，如果您不使用模数进行缩减，您的哈希值将增长到与字符串本身一样大，从而使它一开始就无法使用哈希函数。所以是的，如果我们不手动减少，使用受控溢出模 2^64 是正确的，甚至是必要的。

关于c# - 对大 N 应用 Rabin-Karp Hash，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22134329/

27

4

0

文章推荐： c++ - cmath 精度误差中的底函数

文章推荐： java - JVM/CLR 源代码兼容语言选项

文章推荐： java - 有人试过混合使用 JavaFX 和 JRuby 吗？

文章推荐： javascript - 合并具有相似值的数组，保持内部值的顺序

clojure:(应用 fn coll)与(应用 #(应用 fn %&)coll)
我正在通过 labrepl 工作，我看到了一些遵循此模式的代码: ;; Pattern (apply #(apply f %&) coll) ;; Concrete example user=> (a
ios - 在应用商店提交 iPhone 应用，然后决定提交 iPad 应用？
我从未向应用商店提交过应用，但我会在不久的将来提交。到目前为止，我对为 iPhone 而非 iPad 进行设计感到很自在。我了解，通过将通用PAID 应用放到应用商店，客户只需支付一次就可以同时使
iphone - 使用多个 Facebook 应用 ID 的 iOS 应用
我有一个应用程序，它使用不同的 Facebook 应用程序(2 个不同的 AppID)在 Facebook 上发布并显示它是“通过 iPhone”/“通过 iPad”。当 Facebook 应用程序
javascript - 在 IOS 应用 Webview 中运行 Angular 应用
我有一个要求，我们必须通过将网站源文件保存在本地 iOS 应用程序中来在 iOS 应用程序 Webview 中运行网站。 Angular 需要服务器来运行应用程序，但由于我们将文件保存在本地，我们无法
facebook-graph-api - 应用 > OAuth2 服务器 > Facebook > OAuth2 服务器 > 应用
所以我有一个单页客户端应用程序。正常流程: 应用程序 -> OAuth2 服务器 -> 应用程序我们有自己的 OAuth2 服务器，因此人们可以登录应用程序并获取与用户实体关联的 access_t
Android 应用 A 想要跟踪 Android 应用 B 安装的 Google Play 推荐数据
假设我有一个安装在用户设备上的 Android 应用程序 A，我的应用程序有一个 AppWidget，我们可以让其他 Android 开发人员在其中以每次安装成本为基础发布他们的应用程序推广广告。因此
JavaScript 应用
Secrets of the JavaScript Ninja中有一个例子它提供了以下代码来绕过 JavaScript 的 Math.min() 函数，该函数需要一个可变长度列表。 Example:
JavaScript 应用()
当我分别将数组和对象传递给 function.apply() 时，我得到 NaN 的 o/p，但是当我传递对象和数组时，我得到一个数字。为什么会发生这种情况？由于数组也被视为对象，为什么我无法使用它
ASP转换格林威治时间函数DateDiff()应用
CFSDN坚持开源创造价值，我们致力于搭建一个资源共享平台，让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章ASP转换格林威治时间函数DateDiff()应用由作者收集整理，如果你
应用 map 后保留列表名称
我正在将列表传递给 map并且想要返回一个带有合并名称的 data.frame 对象。例如: library(tidyverse) library(broom) mtcars %>% spl
r - 计算每行的每周返回 - 应用
我有一个非常基本的问题，但我不知道如何实现它:我有一个返回数据框，其中每个工具的返回值是按行排列的: tmp<-as.data.frame(t(data.frame(a=rnorm(250,0,1)
创建第二个群组的 Facebook 应用
我正在使用我的 FB 应用创建群组并邀请用户加入我的应用群组，第一次一切正常。当我尝试创建另一个组时，出现以下错误: {"(OAuthException - #4009) (#4009) 在有更多用户
适用于特定设备的 iOS 应用
我们正在开发一款类似于“会说话的本”应用程序的 child 应用程序。它包含大量用于交互式动画的 JPEG 图像序列。问题是动画在 iPad Air 上播放正常，但在 iPad 2 上播放缓慢或滞后
clojure - 应用 Clojure
我关注 clojure 一段时间了，它的一些功能非常令人兴奋(持久数据结构、函数式方法、不可变状态)。然而，由于我仍在学习，我想了解如何在实际场景中应用，证明其好处，然后演化并应用于更复杂的问题。即，
非英语版本的 iOS 应用
我开发了一个仅使用挪威语的应用程序。该应用程序不使用本地化，因为它应该仅以一种语言(挪威语)显示。但是，我已在 Info.plist 文件中将“本地化 native 开发区域”设置为“no”。我还使用
haskell - 应用 <* 的一元等价物
读完 Anthony's response 后上a style-related parser question ，我试图说服自己编写单体解析器仍然可以相当紧凑。所以而不是 reference ::
r - 多核::应用？
multicore 库中是否有类似 sapply 的东西？还是我必须 unlist(mclapply(..)) 才能实现这一点？如果它不存在:推理是什么？提前致谢，如果这是一个愚蠢的问题，我们深表
r - 如何使用函数查看文件中的结果并*应用？
我喜欢在窗口中弹出结果，以便更容易查看和查找(例如，它们不会随着控制台继续滚动而丢失)。一种方法是使用 sink() 和 file.show()。例如: y <- rnorm(100); x <- r
应用@valid之前的spring mvc进程对象
我有一个如下所示的 spring mvc Controller @RequestMapping(value="/new", method=RequestMethod.POST) public Stri
c# - 应用 Bootstrap
我正在阅读 StructureMap关于依赖注入(inject)，首先有两部分初始化映射，具体类类型的接口(interface)，另一部分只是实例化(请求实例)。第一部分需要配置和设置，这是在 Bo

首页

博学

6Ren·AI

商城

c# - 对大 N 应用 Rabin-Karp Hash