c++ - 独特的大规模阵列/序列-6ren

c++ - 独特的大规模阵列/序列

转载作者：塔克拉玛干更新时间：2023-11-03 04:47:37

26

4

我想唯一化 n 元素的数组。

n 最大可达 10^9，甚至 10^11。

也就是说，元素可能无法全部放入内存中。因此，下面的简单排序和唯一方法将不起作用(太慢:排序和唯一一个 10^8 数组需要一个线程半分钟)。

排序( a.begin(), a.end() ); a.erase( unique(a.begin(), a.end() ), a.end() );

幸运的是，有一些东西可以帮助设计算法:

元素适合 64 位无符号整数 ( uint64_t )。由于元素是由哈希函数生成的，因此我们可以假设它满足均匀分布( ~U(0, 2^64-1) )。
我有一个不少于 10 台多核计算机/节点的集群，因此可以(并且应该)将算法设计为分布式。我有权运行 MPI C++ 代码。 (不过集群不属于自己，有时可能有其他程序在任何一台电脑/节点上争抢CPU时间。所以任务最好动态分配到每台电脑/节点)
每台计算机/节点不少于8核，不少于64G主内存，不少于100G SSD空闲空间。此外，它们通过千兆以太网连接。

谁能帮忙给一下设计算法的建议？该方法需要多次运行。我希望在集群上一小时内得到结果。

最佳答案

将您的数据分成两部分。假设一个部分很容易放入内存。排序并使每个部分都独一无二。将其保存到文件中(可以同时完成)。就像合并两个有序集合一样，你只需要每个部分的头部。处理后的元素可以写入磁盘。

从 2 个部分到 N 个部分的泛化很容易。

关于c++ - 独特的大规模阵列/序列，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18915665/

26

4

0

文章推荐： c# - C# 中的低通滤波器泛化

文章推荐： java - AOP 实现背后的重要思想是什么

文章推荐： java - 如何向 Varargs 添加新元素？

文章推荐： c# - 来自元素集合的唯一无序集(幂集)

prometheus - 哪些用例真正使普罗米修斯的汇总指标类型成为必要/独特？
对于 Prometheus 指标集合，如标题，我真的找不到只能通过 type Summary 完成的用例。，似乎它们都可以通过 type Histogram 以某种方式完成还。让我们以请求并发度量
r - 不区分大小写独特保持原样
这个问题在这里已经有了答案: Ignore case while using duplicated (1 个回答) 关闭 9 个月前。使用不区分大小写的 unique(tolower(x)) 删除
azure - 如何收到新(独特)错误的警报
应用程序监控服务的一个有用功能是每次发生新的、独特的错误/问题/异常时发送警报(例如电子邮件)(即不是每次发生)。要么只是第一次，要么最多每次 X 次(一天或一周等)。例如，这可以通过 Visual
azure - 如何收到新(独特)错误的警报
应用程序监控服务的一个有用功能是每次发生新的、独特的错误/问题/异常时发送警报(例如电子邮件)(即不是每次发生)。要么只是第一次，要么最多每次 X 次(一天或一周等)。例如，这可以通过 Visual
group-by - DB2 独特 + xmlagg 查询
我想要相当于 DB2 中 MySql 的 GROUP_CONCAT 功能。我尝试过 DB2 的 XML Aggrigate 函数来合并 murows。 SELECT a.ID, sub
python - 雪花和 SQLAlchemy "unexpected ' 独特'
我正在运行 python 数据库迁移脚本 (Flask-Migrate) 并添加了 alembic.ddl.imp import DefaultImpl 来解决第一组错误，但现在我收到以下错误。我正在
bash - 排序 |独特 | xargs grep ... 其中行包含空格
我有一个逗号分隔的文件“myfile.csv”，其中第 5 列是日期/时间戳。 (mm/dd/yyyy hh:mm)。我需要列出所有包含重复日期的行(有很多) 我正在通过 cygwin 为 WinX
MySQL 5.7 | MySQL 5.7分组依据 |独特|聚合错误
我使用的是 MySQL 5.7。我有一个表格如下: -------------------------------------------------- | id | currentcy_id |
javascript - ng-repeat 中的 Angular 独特 ng-model
所以我有一个像这样的 ng-repeat: Join Ride /md-switch> 但是，每个 md-switch 都有相同的模型，因此当我在 Control
node.js - Mongoose 独特 :true pre-save hook calls hook before validation
据我了解， Mongoose 预保存 Hook 在将文档插入集合之前但在验证发生之后触发。因此，如果一次验证失败，则不会调用预保存 Hook 。就我而言，无论如何都会调用它们: 下面的简单代码的作用
awk - 重现 grep "my pattern"myfile.log |排序 |独特 | awk 中的 wc -l
如果我对我的目标文件执行此 grep，我会得到例如 275 作为结果。但是我想学习 awk，所以在 awk 中尝试了这个: awk 'BEGIN { count=0 } /my pattern/

首页

博学

6Ren·AI

商城

c++ - 独特的大规模阵列/序列