c - 完美/理想的哈希来隔离字谜-6ren

c - 完美/理想的哈希来隔离字谜

转载作者：行者123 更新时间：2023-11-30 15:46:40

30

4

为了加速测试字谜字符串的快速输出行为，我 came up with基于质数的哈希方案——尽管它看起来像 I wasn't the first .

基本思想是将字母映射到素数，并计算这些素数的乘积。字母的任何重新排列都会产生相同的结果，如果结果可以任意大，那么其他字母的组合都不会产生相同的结果。

我最初将其设想为只是一个哈希值。最终该产品会溢出并开始为其他字母组合起别名。然而，通过将最常见的字母映射到最小的素数，乘积增长缓慢，并且通常可以完全避免溢出。在这种情况下，我们得到了一个完美的哈希值，无需额外测试即可给出明确的正面和负面结果。

值得注意的是，它在溢出之前并没有非常有效地填充编码空间。结果中不会有任何大于 103 的素数因子，并且小素数的分布是固定的，不一定与字母频率非常匹配。

现在我想知道是否有比这更好的东西。用完美的哈希值覆盖更多结果并且在其余情况下具有很强的分布性的东西。

我能想到的最密集的编码方案是对字母进行排序，然后用熵编码器将它们打包成一个单词。在这个方案中，由于每个位置都受到范围限制，字母频率显然会有很大偏差(例如，以 z 开头的排序数组的可能性大大低于以 z 结尾的排序数组的可能性)。

不过，这听起来像是一项繁重的工作——而且我看不出它能保证在溢出情况下提供良好的分配。

也许有一组更好的因素可以将字母映射到，以及更好的方法来检测锯齿风险何时开始。或者不依赖乘法的哈希方案？有什么容易计算的吗？

所以这就是:

针对尽可能多的现实世界输入(对于一些合理的位数)的完美哈希。
剩余情况的强哈希，以及区分这两种情况的方法。
易于计算。

英语语言限制(26 个字母，具有典型的英语单词结构)就可以了。多字节编码方案是另一个问题。

首选 C 代码，因为我理解它。

最佳答案

如果您使用大小为 m 的字母表的 n 位哈希，则可以使用我描述的方法 here 获得长达 (n-m) 个字符的字谜的唯一哈希。。这使得冲突检测变得不必要，但它确实限制了您的单词大小，具体取决于字母表的大小和可用空间。

为了允许任意长度的单词，我将使用 n-1 位对长度最多 (n-m-1) 个字符的单词进行哈希处理，并保存最后一位以表明该单词是 m 个字符或更长。在这些情况下，您将使用剩余的 n-1 位作为素数或其他哈希算法，但当然，只要您在这些存储桶中有多个单词，您就必须进行冲突检测。由于在现实世界的应用程序中，大多数单词将占据较短的单词长度，因此您将大大减少较长单词所需的冲突检测。

关于c - 完美/理想的哈希来隔离字谜，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18162204/

30

4

0

文章推荐： C程序在if语句中覆盖文件内容

文章推荐： c# - NHibernate + Fluent NHibernate 异常

文章推荐： c - 什么情况下我们使用堆排序？

java - 使用多个执行程序时，理想/最佳线程池大小是多少？
从许多帖子中我可以读到有关最大池大小的公式，它取决于 CPU 的数量 + 1。这是一个明确的解释。但是如果应用程序定义了许多执行器或线程池执行器怎么办。然后我们还必须考虑应用程序共享相同的硬件。这对
jquery - 垂直 Accordion 内容 slider 理想 jQuery
我一直在寻找垂直 Accordion 内容 slider 。我找到了一个:http://www.marghoobsuleman.com/jQuery-common-accordion ，而且还不错。我
c# - 简单的自包含 SNMP 代理示例？ (java/c# 理想)
在 not having a whole bunch of luck 之后找到任何可充当 SNMP 代理的 .NET SNMP 库(可在 OSS 项目中使用 - 这意味着专有库已经过时)，我现在正在考
linux - 专用 memcached 虚拟集群的最小/理想 memcached 堆栈是多少
目前我正在考虑: VMWare 管理程序 ESXi 中央操作系统 5.5 内存缓存 1.4.5和依赖这就是全部。我还需要什么/任何替代品吗？最佳答案 Memcached在linux上运行的很好，所

首页

博学

6Ren·AI

商城

c - 完美/理想的哈希来隔离字谜