c++ - 为什么LLVM选择开放寻址哈希表来实现llvm::StringMap？-6ren

c++ - 为什么LLVM选择开放寻址哈希表来实现llvm::StringMap？

转载作者：塔克拉玛干更新时间：2023-11-03 01:50:44

26

4

许多消息来源说 open-addressing，llvm::StringMap 中使用的散列冲突处理方法不稳定。据说当负载系数很高(这是可以想象的)时，开放寻址不如链接。

但是如果负载因子低，开放寻址会造成巨大的内存浪费，因为我必须在内存中分配 Bucket_number * sizeof(Record) 字节，即使大多数桶都没有记录。

所以我的问题是，LLVM 选择开放寻址而不是分离链的原因是什么？仅仅是因为缓存局部性带来的速度优势(记录本身存储在桶中)吗？

谢谢:)

编辑:C++11 标准对 std::unordered_set 和 std::unordered_map 的要求暗示了链接方法，而不是开放寻址。为什么LLVM会选择一种连C++标准都达不到的hash冲突处理方式呢？ llvm::StringMap 是否有任何特殊用例可以保证这种偏差？ (编辑:这个 slide deck 将几种 LLVM 数据结构的性能与 STL 对应物的性能进行了比较)

另一个问题，顺便说一句:

llvm::StringMap 如何保证在增长时不重新计算键的哈希值？manual说:

hash table growth does not recompute the hash values for strings already in the table.

最佳答案

让我们看看the implementation .在这里我们看到该表存储为间接指针记录的并行数组以及任何缓存的 32 位哈希码数组，即单独的结构数组。

有效:

struct StringMap {
 uint32_t hashcode[CAPACITY];
 StringMapEntry *hashptr[CAPACITY];
};

除了容量是动态的并且负载系数似乎保持在容量的 37.5% 到 75% 之间。

对于 N 记录一个负载因子 F 这会产生 N/F 指针加上 N/F 整数与 N*(1+1/F) 指针和等效链式实现的 N 整数相比，开放寻址实现。在典型的 64 位系统上，开放地址版本的大小在 ~4% 到 ~30% 之间较小。

然而，正如您所怀疑的那样，这里的主要优势在于缓存效果。除了平均缓存通过缩小数据来减少争用之外，冲突过滤归结为对连续 32 位哈希键的线性重新探测，而不检查任何进一步的信息。因此，在链接必须跟随到可能未缓存的存储的链式情况下，拒绝冲突要快得多，因此可以使用显着更高的加载因子。另一方面，必须在指针查找表上进行一次额外的可能缓存未命中，但这是一个常数，不会随着相当于一次链式冲突的负载而降低。

有效:

StringMapEntry *StringMap::lookup(const char *text) {
    for(uint32_t *scan = &hashcode[hashvalue % CAPACITY]; *scan != SENTINEL; ++scan) {
        uint32_t hash_value = hash_function(text);
        if(hash_value == *scan) {
            StringMapEntry *entry = p->hashptr[scan - hashcode];
            if(!std::strcmp(entry->text, text))
                return entry;
            }
        }
    }
}

加上包装等细微之处。

关于你的第二个问题，优化是预先计算和存储哈希键。这会浪费一些存储空间，但可以防止检查可能很长的可变长度字符串的昂贵操作，除非几乎可以确定匹配。在退化的情况下，复杂的模板名称修改可能有数百个字符。

进一步优化 RehashTable是使用二次幂而不是素数表大小。这确保了有效地增长表会带来一个额外的哈希码位发挥作用，并将加倍的表去交织成两个连续的目标数组，有效地使操作成为缓存友好的线性扫描。

关于c++ - 为什么LLVM选择开放寻址哈希表来实现llvm::StringMap？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45387613/

26

4

0

文章推荐： c - Exec 不会调用我的第二个程序

文章推荐： c++ - 将字符串从 Fortran 传递到 C/C++ 的正确方法

文章推荐： linux - 如何将多个脚本作为一个脚本重定向到 bash

文章推荐： c++ - 调用不可用函数 'system' : not available on iOS

regex - Grep 所有不以#(哈希)或贪心空格和#(哈希)开头的行
我正在尝试 grep conf 文件中所有不以开头的有效行哈希(或) 任意数量的空格(0 个或多个)和一个散列下面的正则表达式似乎不起作用。 grep ^[^[[:blank:]]*#] /op
带斜线的 Laravel 哈希
我正在使用哈希通过 URL 发送 protected 电子邮件以激活帐户 Hash::make($data["email"]); 但是哈希结果是 %242y%2410%24xaiB/eO6knk8sL
来自文本文件的 Perl 哈希
我是 Perl 的新手，正在尝试从文本文件创建散列。我有一个代码外部的文本文件，旨在供其他人编辑。前提是他们应该熟悉 Perl 并且知道在哪里编辑。文本文件本质上包含几个散列的散列，具有正确的语法、缩
perl 哈希 - 比较键和值
我一直在阅读 perl 文档，但我不太了解哈希。我正在尝试查找哈希键是否存在，如果存在，则比较其值。让我感到困惑的是，我的搜索结果表明您可以通过 if (exists $files{$key}) 找到
当键和值都是数组引用时的 Perl 哈希
我遇到了数字对映射到其他数字对的问题。例如，(1,2)->(12,97)。有些对可能映射到多个其他对，所以我真正需要的是将一对映射到列表列表的能力，例如 (1,2)->((12,97),(4,1))。
Mustache:从模板中检索标签列表/哈希？
我见过的所有 Mustache 文档和示例都展示了如何使用散列来填充模板。我有兴趣去另一个方向。 EG，如果我有这个: Hello {{name}} mustache 能否生成这个(伪代码): tag
hash - ColdFusion 哈希
我正在尝试使用此公式创建密码摘要以获取以下变量，但我的代码不匹配。不确定我做错了什么，但当我需要帮助时我会承认。希望有人在那里可以提供帮助。文档中的公式:Base64(SHA1(NONCE + TI
arrays - 遍历数据数组/哈希
我希望遍历我传递给定路径的这些数据结构(基本上是目录结构)。目标是列出根/基本路径，然后列出所有子 path s 如果它们存在并且对于每个子 path存在，列出 file从那个子路径。我知道这可能
子函数的 Perl 哈希
我希望有一个包含对子函数的引用的散列，我可以在其中根据用户定义的变量调用这些函数，我将尝试给出我正在尝试做的事情的简化示例。 my %colors = ( vim => setup_vim()
vim - 为什么写入文件会更改内容(哈希)？
我注意到，在使用 vim 将它们复制粘贴到文件中后尝试生成一些散列时，散列不是它应该的样子。打开和写出文件时相同。与 nano 的行为相同，所以一定有我遗漏的地方。 $ echo -n "foo"
perl - 为什么我们不能在列表上下文中初始化状态数组/哈希？
数组和散列作为状态变量存在限制。从 Perl 5.10 开始，我们无法在列表上下文中初始化它们: 所以 state @array = qw(a b c); #Error! 为什么会这样？为什么这是不允
Varnish vcl_backend_response检测vcl_recv返回(哈希)
在端口 80 上使用 varnish 5.1 的多网站设置中，我不想缓存所有域。这在 vcl_recv 中很容易完成。 if ( req.http.Host == "cache.this.domai
Django 管道缓存破坏不更新缓存文件/哈希
基本上，缓存破坏文件上的哈希不会更新。 class S3PipelineStorage(PipelineMixin, CachedFilesMixin, S3BotoStorage): pa
eclipse - 调试Dart应用程序时变量的唯一ID(哈希？)
eclipse dart插件在“变量” View 中显示如下内容: 在“值”列中可见的“id”是什么意思？ “id”是唯一的吗？在调试期间，如何确定两个实例是否相同？我是否需要在所有类中重写toStr
arrays - 将相同类型的命令行参数读入Powershell中的数组/哈希
如何将Powershell中的命令行参数读入数组？就像是 myprogram -file file1 -file file2 -file file3 然后我有一个数组 [file1,file2,fil
用于安全支付网关的 coldfusion 哈希
我正尝试在 coldfusion 中为我们的安全支付网关创建哈希密码以接受交易。很遗憾，支付网关拒绝接受我生成的哈希值。表单发送交易的所有元素，并发送基于五个不同字段生成的哈希值。在 PHP 中
Ruby - 哈希 - 组合
例如，我有一个包含 5 个元素的哈希: my_hash = {a: 'qwe', b: 'zcx', c: 'dss', d: 'ccc', e: 'www' } 我的目标是每次循环哈希时都返回，但没
哈希问题的 Perl 哈希
我在这里看到了令人作呕的类似问题，但没有一个能具体回答我自己的问题。我正在尝试以编程方式创建哈希的哈希。我的问题代码如下: my %this_hash = (); if ($user_hash{$u
用于安全支付网关的 coldfusion 哈希
我正尝试在 coldfusion 中为我们的安全支付网关创建哈希密码以接受交易。很遗憾，支付网关拒绝接受我生成的哈希值。表单发送交易的所有元素，并发送基于五个不同字段生成的哈希值。在 PHP 中
Java 哈希(简单)
这个问题已经有答案了: Java - how to convert letters in a string to a number? (9 个回答) 已关闭 7 年前。我需要一种简短的方法将字符串转

首页

博学

6Ren·AI

商城

c++ - 为什么LLVM选择开放寻址哈希表来实现llvm::StringMap？