c++ - std::unordered_set 如何存在病理输入？-6ren

c++ - std::unordered_set 如何存在病理输入？

转载作者：行者123 更新时间：2023-12-01 11:57:35

25

4

我正在解决在给定数组中找到不同整数的数量的基本问题。
我的想法是声明一个 std::unordered_set ，将所有给定的整数插入集合中，然后输出集合的大小。这是我实现此策略的代码:

#include <iostream>
#include <fstream>
#include <cmath>
#include <algorithm>
#include <vector>
#include <unordered_set>

using namespace std;

int main()
{
    int N;
    cin >> N;
    
    int input;
    unordered_set <int> S;
    for(int i = 0; i < N; ++i){
        cin >> input;
        S.insert(input);
    }
    
    cout << S.size() << endl;

    return 0;
}

这种策略几乎适用于所有输入。在其他输入情况下，它超时。
我很好奇我的程序为什么会超时，所以我添加了一个 cout << i << endl; for 循环内的一行。我发现当我进入输入案例时，第一个 53000循环的大约迭代几乎会立即通过，但之后只有少数 100每秒都会发生迭代。
我已经阅读了关于哈希集如何以 O(N) 结尾的文章。如果发生大量碰撞，则插入，所以我认为输入在 std::unordered_set 内引起了大量碰撞.
然而，这是不可能的。 std::unordered_set 的哈希函数整数的用途将它们映射到自身(至少在我的计算机上)，因此不同整数之间不会发生冲突。我使用写在 this link 上的代码访问了哈希函数.
我的问题是，输入本身是否可能导致 std::unordered_set到达附近后减速 53000元素插入？如果是这样，为什么？
Here是我测试程序的输入案例。它相当大，所以它可能会滞后一点。

最佳答案

您提供的输入文件由与 1 一致的连续整数组成。模107897 .因此，最有可能发生的情况是，当负载因子超过阈值时，您正在使用的特定库实现会使用带有 107897 的表来调整表的大小。条目，以便具有散列值的键 h将映射到存储桶 h % 107897 .由于每个整数的散列都是它自己，这意味着到目前为止表中的所有整数都突然映射到同一个桶。这种调整大小本身应该只需要线性时间。但是，该点之后的每个后续插入都将遍历包含所有现有值的链表，以确保它不等于任何现有值。所以每次插入都需要线性时间，直到下一次调整表的大小。
原则上unordered_set当任何一个桶变得太长时，实现也可以通过调整表的大小来避免这个问题。然而，这引发了一个问题，这是否是与合理的散列函数的散列冲突(因此需要调整大小)，或者用户只是被误导并将每个键散列为相同的值(在这种情况下，无论 table 大小)。所以也许这就是为什么它没有在这个特定的库实现中完成。
另见 https://codeforces.com/blog/entry/62393 (这种现象在 Codeforces 竞赛中获得积分的应用)。

关于c++ - std::unordered_set 如何存在病理输入？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/63515655/

25

4

0

文章推荐： regex - 负整数正则表达式不匹配

文章推荐： jira - 如何允许特定组权限在 JIRA 中进行项目

文章推荐： unit-testing - SPRING Roo 项目 - 版本控制中应该保留什么

文章推荐： m2crypto - (什么时候)将 m2crypto 移植到 Python3？

c++ - 创建 unordered_set 的 unordered_set
我想创建一个容器来存储唯一的整数集。我想创建类似的东西 std::unordered_set> 但是 g++ 不允许我这样做并说: invalid use of incomplete type 's
c++ - 检查 unordered_set 是否包含其他 unordered_set 中的所有元素 - C++
我是 C++ 的新手，被要求将 Java 程序转换为 C++。我正在尝试编写一种方法来检查一个 unordered_set 中的所有元素是否存在于另一个 unordered_set 中。我发现下面的示
c++ - 为什么我必须为每个命名空间定义一个哈希函数作为 unordered_set？
我想为我正在编写的类创建一个散列函数，我想让散列函数成为类的 friend ，这样我就不必编写不必要的 getter 方法。为此，我遵循了 this SO post 中接受的答案.但我希望能够将对象插
c++ - unordered_set 可以为节点和桶列表使用不同的分配器吗？
我想使用 std::pmr::unordered_map与 std::pmr::monotonic_buffer_resource .两者配合得很好，因为集合的节点是稳定的，所以我不会通过重新分配在缓
在 unordered_sets 上排序
我有一个每帧创建的项目列表，需要对其进行排序。每个 Item 的第一个排序依据的成员变量是 unordered_set。我已将其移动到系统中各处的有序集合中，以便我可以在项目列表中对其进行排序。但是
c++ - 直接使用成员函数与 unordered_set
是否有将 std::unordered_set 与实现 operator== 和 hash 的类一起使用的捷径？具体来说，有没有一种方法可以 (1) 避免创建独立的 operator==(const
c++ - unordered_set 与链表查找之间的性能比较
我正在将 C 文件转换为 C++。由于这些函数仍会从 C 代码中调用，因此我会将整个文件放在 extern "C" block 中。该文件包含以下代码- struct node{ char*
c++ - Unordered_set 插入最坏情况
我有一个关于在 unordered_set 中插入的问题。我想建立一个最坏情况插入的例子。我有 30000 个字符串(len string my_set; 关于c++ - Unordered_set
c++ - unordered_set 通过地址传递
我已经从 C 转向 C++，并且最近学习了 STL。最后一行在 STL 样式中给出了很长的错误(无助)或者也许我是模板的新手，这就是为什么我觉得它无能为力。 int insert(Forest *f
c++ - unordered_set 中的哈希函数
我正在使用 unordered_set 来实现哈希表。我不知道如何使用查找功能。运行此代码时，我不断遇到段错误。我知道这是因为 find() 没有找到元素，但它应该找到。我的问题是如何通过我提供的自定
c++ - unordered_set 构造歧义
这个问题在这里已经有了答案: C++11 initializer list fails - but only on lists of length 2 (2 个答案) 关闭 8 年前。当我使用包含
c++ - unordered_set 的迭代器减法不起作用
这个问题在这里已经有了答案: Subtracting map iterators (2 个答案) 关闭 5 年前。尝试在无序集中查找元素的索引。发现迭代器的减法(运算符“-”)是一种方法。 vec
c++ - unordered_set C++
我注意到当我使用无序集时 unordered_set theSet;为了保存大量整数，即使调用 clear() 或 rehash(0)，它也不会释放内存。即使我在函数中本地定义了集合，并且函数完成执行
c++ - Unordered_set 问题
谁能解释一下无序集是如何工作的？我也不确定一套是如何工作的。我的主要问题是它的查找功能的效率如何。例如，这个大 O 的总运行时间是多少？ vector theFirst; vecto
c++ - unordered_set 是否在内部修改？
我一直在阅读 cplusplus.com 网站并尝试确保我的 unordered_set 号码不会以任何方式被修改。该站点表示容器的元素未排序，普通 set 就是这种情况。该网站还说: Intern
c++ - 如何使用多态性将相同的操作应用于具有相同基类的不同对象的 unordered_sets？
我有: std::unordered_set _buttons; std::unordered_set _sprites; std::unordered_set _someOtherSprites;
c++ - unordered_set 将元素存储为指针
缩小范围:我目前正在使用 Boost.Unordered .我看到两种可能的解决方案: 定义我自己的Equality Predicates and Hash Functions并利用模板(可能是 is
c++ - unordered_set 使用值对象地址的散列
我有一个类需要一个 std::unordered_set它持有不可复制、不可移动的实体对象，并且其哈希函数对实例的地址进行哈希处理。类似于以下内容: class A { public: A()
c++ - unordered_set 的散列自定义指针类型
我正在尝试散列一个 Edge 结构，以便我可以拥有一个具有唯一边的 unordered_set。在我的例子中，如果一条边的两个端点的组合在之前的集合中没有遇到，则该边被认为是唯一的。虽然我的代码适用
c++ - 如何声明一个哈希函数以用于命名空间内的 unordered_set？
我已经成功地为自定义类创建了一个散列函数(和 == 覆盖)，因此我可以在 unordered_set 中使用它。但是，理想情况下，我想在要使用的类附近为我的类定义模板特化。这可以通过以下方式完成，效果

首页

博学

6Ren·AI

商城

c++ - std::unordered_set 如何存在病理输入？