c++ - boost::flat_map 及其与 map 和 unordered

c++ - boost::flat_map 及其与 map 和 unordered_map 相比的性能

转载作者：行者123 更新时间：2023-12-01 17:46:07

编程中的常识是，由于缓存命中，内存局部性可以大大 boost 性能。我最近发现了 boost::flat_map这是一个基于 vector 的 map 实现。它似乎不像您典型的那样受欢迎 map/unordered_map所以我找不到任何性能比较。它如何比较以及它的最佳用例是什么？

谢谢!

最佳答案

我最近在我的公司对不同的数据结构运行了一个基准测试，所以我觉得我需要放弃一个词。正确地对某些东西进行基准测试是非常复杂的。
基准测试
在网络上，我们很少找到(如果有的话)精心设计的基准测试。直到今天，我只找到了以记者的方式完成的基准测试(很快，并在地毯下扫描了数十个变量)。
1) 您需要考虑缓存预热
大多数运行基准测试的人都害怕计时器差异，因此他们运行他们的东西数千次并花费全部时间，他们只是小心翼翼地为每次操作采取相同的数千次，然后认为它具有可比性。
事实是，在现实世界中它没有什么意义，因为您的缓存不会是热的，并且您的操作可能只会被调用一次。因此，您需要使用 RDTSC 进行基准测试，并且只计算一次调用它们的时间。
英特尔发论文describing如何使用RDTSC(使用cpuid指令刷新管道，并在程序开始时至少调用3次以使其稳定)。
2) RDTSC 精度测量
我还建议这样做:

u64 g_correctionFactor;  // number of clocks to offset after each measurement to remove the overhead of the measurer itself.
u64 g_accuracy;

static u64 const errormeasure = ~((u64)0);

#ifdef _MSC_VER
#pragma intrinsic(__rdtsc)
inline u64 GetRDTSC()
{
    int a[4];
    __cpuid(a, 0x80000000);  // flush OOO instruction pipeline
    return __rdtsc();
}

inline void WarmupRDTSC()
{
    int a[4];
    __cpuid(a, 0x80000000);  // warmup cpuid.
    __cpuid(a, 0x80000000);
    __cpuid(a, 0x80000000);
    
    // measure the measurer overhead with the measurer (crazy he..)
    u64 minDiff = LLONG_MAX;
    u64 maxDiff = 0;   // this is going to help calculate our PRECISION ERROR MARGIN
    for (int i = 0; i < 80; ++i)
    {
        u64 tick1 = GetRDTSC();
        u64 tick2 = GetRDTSC();
        minDiff = std::min(minDiff, tick2 - tick1);   // make many takes, take the smallest that ever come.
        maxDiff = std::max(maxDiff, tick2 - tick1);
    }
    g_correctionFactor = minDiff;

    printf("Correction factor %llu clocks\n", g_correctionFactor);

    g_accuracy = maxDiff - minDiff;
    printf("Measurement Accuracy (in clocks) : %llu\n", g_accuracy);
}
#endif

这是一个差异测量器，它将取所有测量值中的最小值，以避免不时得到 -10**18(64 位第一个负值)。
请注意使用内部函数而不是内联汇编。现在编译器很少支持第一个内联汇编，但更糟糕的是，编译器在内联汇编周围创建了一个完整的排序障碍，因为它不能静态分析内部，所以这是对现实世界的东西进行基准测试的问题，尤其是在调用东西时就一次。因此，内在函数适用于此处，因为它不会破坏编译器对指令的自由重新排序。
3) 参数
最后一个问题是人们通常测试场景的变化太少。
容器性能受以下因素影响:

分配器

包含类型的大小

所包含类型的复制操作、赋值操作、移动操作、构造操作的实现成本。

容器中的元素数量(问题的大小)

类型有简单的 3.-操作

类型为 POD

第 1 点很重要，因为容器会不时分配，如果它们使用 CRT"new"或某些用户定义的操作(如池分配或空闲列表或其他...
(对于对第 1 点感兴趣的人， join the mystery thread on gamedev 关于系统分配器性能影响)
第 2 点是因为一些容器(比如 A)会浪费时间复制东西，而且类型越大开销越大。问题在于，与另一个容器 B 相比，A 可能会在小型类型上胜过 B，而在较大类型上输掉。
第 3 点与第 2 点相同，只是它将成本乘以某个加权因子。
第 4 点是大 O 与缓存问题混合的问题。对于少数类型(例如 map 与 vector ，因为它们的缓存位置很好，但 map 会分割内存)，一些复杂度差的容器在很大程度上可以胜过低复杂度容器。然后在某个交叉点，它们将失败，因为包含的整体大小开始“泄漏”到主内存并导致缓存未命中，再加上可以开始感觉到渐近复杂性的事实。
第 5 点是关于编译器能够在编译时忽略空的或微不足道的东西。这可以极大地优化一些操作，因为容器是模板化的，因此每种类型都有自己的性能配置文件。
第 6 点与第 5 点相同，POD 可以从复制构造只是一个 memcpy 的事实中受益。，并且一些容器可以针对这些情况有特定的实现，使用部分模板特化，或者 SFINAE 根据 T 的特征选择算法。
关于平面 map
显然，平面 map 是一个排序的 vector 包装器，就像 Loki AssocVector，但是随着 C++11 的一些补充现代化，利用移动语义来 boost 单个元素的插入和删除。
这仍然是一个有序的容器。大多数人通常不需要订购部分，因此存在 unordered.. .
你有没有想过，也许你需要一个 flat_unorderedmap ?这将类似于 google::sparse_map或者类似的东西——一个开放的地址哈希映射。
开放地址hashmap的问题是在 rehash的时候他们必须将周围的所有内容复制到新的扩展平面上，而标准的无序映射只需重新创建哈希索引，而分配的数据则保持原样。缺点当然是内存碎片化如 hell 。
开放地址哈希映射中重新哈希的标准是当容量超过桶 vector 的大小乘以负载因子时。
典型的负载因子是 0.8 ;因此，您需要注意这一点，如果您可以在填充之前预先调整哈希映射的大小，请始终将其预先调整为: intended_filling * (1/0.8) + epsilon这将保证您在填充过程中永远不必虚假地重新散列和重新复制所有内容。
封闭地址映射( std::unordered.. )的优点是您不必关心这些参数。
但是 boost::flat_map是有序 vector ；因此，它将始终具有 log(N) 渐近复杂度，这不如开放地址哈希映射(摊销常数时间)好。你也应该考虑一下。
基准测试结果
这是一个涉及不同映射的测试(使用 int 键和 __int64/ somestruct 作为值)和 std::vector .
测试类型信息:

typeid=__int64 .  sizeof=8 . ispod=yes
typeid=struct MediumTypePod .  sizeof=184 . ispod=yes

插入
编辑:
我之前的结果包含一个错误:他们实际上测试了有序插入，这对平面 map 表现出非常快的行为。
我稍后将这些结果留在本页下方，因为它们很有趣。
这是正确的测试:
random insert 100

我已经检查了实现，这里的平面 map 中没有实现延迟排序之类的东西。每个插入都在运行中排序，因此这个基准表现出渐近的趋势:
map :O(N * log(N))
哈希映射:O(N)
vector 和平面图:O(N * N)
警告 :此后对 std::map 进行 2 次测试和两者 flat_map s 是 buggy 并实际测试 有序插入 (与其他容器的随机插入相比。是的，这很令人困惑，抱歉):
mixed insert of 100 elements without reservation

mixed insert of 100 elements without reservation

我们可以看到有序插入会导致反向推送，并且速度非常快。然而，从我的基准测试的非图表结果来看，我也可以说这还没有接近反向插入的绝对最优性。在 10k 个元素上，在预先保留的 vector 上获得了完美的反向插入最优性。这给了我们 300 万个周期；我们在这里观察到 4.8M 用于有序插入 flat_map (因此是最佳值的 160%)。
mixed insert of 10000 elements without reservation

mixed insert of 10000 elements without reservation

分析:记住这是 vector 的“随机插入”，因此大量的 10 亿个周期来自每次插入时必须向上移动一半(平均)数据(一个元素一个元素)。
随机搜索 3 个元素(时钟重新归一化为 1)
大小 = 100
rand search within a container of 100 elements

大小 = 10000
rand search within a container of 10000 elements

迭代
超过 100 码(仅限 MediumPod 类型)
Iteration over 100 medium pods

超过 10000 号(仅限 MediumPod 类型)
Iteration over 10000 medium pods

最后一粒盐
最后，我想回到“基准 §3 Pt1”(系统分配器)。在最近的一个实验中，我在做 an open address hash map I developed 的性能，我在一些 std::unordered_map 上测得 Windows 7 和 Windows 8 之间的性能差距超过 3000%用例( discussed here )。
这让我想警告读者上述结果(它们是在 Win7 上制作的):您的里程可能会有所不同。

关于c++ - boost::flat_map 及其与 map 和 unordered_map 相比的性能，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21166675/

文章推荐： jquery - 为什么 jQuery Ajax 在 Cordova iOS 应用程序中不起作用

c++ - 如何遍历 vector 图的 map map map map map map map vector
我正在尝试从一个 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 map 的 m
function - map map vs map.map
我是 Haskell 的新手，我认为函数 map map和 map.map在 Haskell 中是一样的。我的终端给了我两种不同的类型， (map.map) :: (a -> b) -> [[a]
java - Map of maps - 如何将内部 map 保留为 map ？
我的目标是创建一个 map 的 map ，这样我就可以通过它的键检索外部 map 的信息，然后通过它们的键访问它的“内部” map 。但是，当我得到每个内部映射时，我最初创建的映射变成了一个对象，我
java - map 的 map 根据内部 map 值获取外部 map
如何使用 Java8 编写以下代码？ for (Entry> entry : data.entrySet()) { Map value = entry.getValue(); if (valu
map - 如何为 map 叠加层准确制作 map
我有覆盖整个南非的图片。它们为Tiff格式，并已将坐标嵌入其中。我正在尝试拍摄这些图像（大约20张图像），并将它们用作我的iPhone应用程序中的地图叠加层。我的问题在于（准确地）将地图切成图块。我
c++ - 如何从一个 map 键列表中减去另一个 map 键列表并获得新 map ( map A - mab B = map C)
所以我有 2 std::map s >一个是“旧的”，一个是“新的”，我想知道哪些文件被删除了，这样就能够遍历差异并对 shared_ptr 做一些事情。这样的事情可能吗？如何做到？最佳答案虽然
google-maps - 将 google.maps.Map 转换为静态 map 链接
是否可以将当前查看的 google.maps.Map 转换为静态图像链接，以便我可以获取图像并将其嵌入到 PDF 中？我在 map 上添加了一些带有自定义图标的标记，所以我不确定这是否真的可行。如
java - 如何将 map 的 map 列表合并为 map 的 map ？
你能帮我吗 Java Streams ？从标题可以看出我需要合并List>>进入Map> . 列表表示为List>>看起来像: [ { "USER_1":{
java - Collection.shuffle 不适用于 Map 键和 Map 值。我有一张 map 中的 map 。我想打乱最里面的 map
对于 idAndTags 的第二个条目，内部映射被打乱，但第一个条目则不然第一次接近! for (Map.Entry> entryOne : idAndTags.entrySet()) {
map - 如何在定义整个 map 之前引用 map 中的变量？
我将从我的代码开始，因为它应该更容易理解我想要做什么: @function get-color($color, $lightness) { @return map-get(map-get($col
google-maps - Google map 窗口仅显示部分 map
我过去曾在许多网站上使用过 Google map ，但遇到了以前从未遇到过的问题。 map 窗口正在显示，但它只显示左上角的 map 片段，以及之后的任何内容(即使我在周围导航时)，右侧也不会加载任何
google-maps - 中国 map - 卫星 map 和默认街道 map 哪个是正确的？这是否意味着地理编码结果是错误的？
众所周知，这些 map ，无论是常规街道 map 还是卫星 map ，在中国的特定地区都无法正确排列。那么哪个 map 排列正确，是卫星 map 还是默认街道 map ？一些网站表明卫星 map 是正
maps - 如何在此处 map 中拖动 map 后获取边界
在拖尾事件之后，我面临着获取此处 map 中的 map 边界的问题。我需要新的经纬度来在新更改的视口(viewport)中获取一些项目/点。我只是想在拖动结束时获得谷歌地图map.getBounds(
bing-maps - Bing map - 英国邮政编码到 map
我想做的是通过 ajax API 显示以英国邮政编码为中心的小型 bing 生成 map 。我相信这是可能的；我在 Bing map 文档中找不到如何将英国邮政编码转换为可以插入 map Ajax 控
java - 如何将列表转换为 map 的 map Map>
我有一个 List我想转换成的 e Map>其中外部字符串应为“Name”，内部字符串应为“Domain”。 Name Id Domain e(0) - Emp1, 1, Insuran
C++ : filling map of maps via map instance allocation from a vector of maps
我的第 2 部分:https://stackoverflow.com/questions/21780627/c-map-of-maps-typedef-doubts-queries 然后我继续创建 I
带有总和的 Map of Map 的 Java8 Map
是否可以在 1 行中使用 Java8 编写以下所有 null 和空字符串检查？ Map> data = new HashMap<>(holdings.rowMap()); Set>> entrySet
java - 重构 Java Map of Map of Map
我正在审查一个项目的旧代码，并使用 Map 的 Map 的 Map 获得了如下数据结构(3 层 map ): // data structure Map>>> tagTree
java - 如何正确地延迟初始化 Map of Map 的 Map？
这可能是一种不好的做法，但我还没有找到更好的解决方案来解决我的问题。所以我有这张 map // Map>> private Map>> properties; 我想初始化它，这样我就不会得到 Null
Java 为什么 Map of Map (ex : Map>) 不可序列化
我们在 JDK 1.7 中使用 HashMap，我在使用 SonarQube 进行代码审查时遇到了一些问题。请考虑以下示例: public class SerializationTest imple

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - boost::flat_map 及其与 map 和 unordered_map 相比的性能