用于检测数据集中重复项的算法，该数据集太大而无法完全加载到内存中-6ren

用于检测数据集中重复项的算法，该数据集太大而无法完全加载到内存中

转载作者：塔克拉玛干更新时间：2023-11-03 02:35:46

26

4

这个问题有最优解吗？

描述一种在包含一百万个电话号码的文件中查找重复项的算法。该算法在运行时只有 2 兆字节的可用内存，这意味着您无法一次将所有电话号码加载到内存中。

我的“天真”解决方案是 O(n^2) 解决方案，它遍历值并只加载文件 block 而不是一次加载所有文件。

For i = 0 to 999,999

string currentVal = get the item at index i

for j = i+1 to 999,999
  if (j - i mod fileChunkSize == 0)
    load file chunk into array
  if data[j] == currentVal
    add currentVal to duplicateList and exit for

肯定还有另一种情况，您可以以真正独特的方式加载整个数据集并验证数字是否重复。有人有吗？

最佳答案

将文件分成M个 block ，每个 block 都足够大，可以在内存中排序。在内存中对它们进行排序。

对于每组两个 block ，我们将对两个 block 执行合并排序的最后一步，以生成一个更大的 block (c_1 + c_2) (c_3 + c_4) .. (c_m-1 + c_m)

指向磁盘上 c_1 和 c_2 的第一个元素，并创建一个新文件(我们称之为 c_1+2)。

如果c_1指向的元素比c_2指向的元素小，则复制到c_1+2并指向c_1的下一个元素。
否则，将c_2的指向元素复制到并指向c_2的下一个元素。

重复上一步，直到两个数组都为空。您只需要使用存储两个指向的数字所需的内存空间。在此过程中，如果您遇到 c_1 和 c_2 指向的元素相等，则您发现了重复项 - 您可以将其复制两次并递增两个指针。

生成的 m/2 数组可以以相同的方式递归合并——这些合并步骤需要 log(m) 次才能生成正确的数组。每个数字将以找到重复项的方式与其他数字进行比较。

或者，@Evgeny Kluev 提到的一个快速而肮脏的解决方案是制作一个尽可能大的布隆过滤器，它可以合理地容纳在内存中。然后，您可以列出每个未能通过布隆过滤器的元素的索引，并再次循环文件以测试这些成员是否重复。

关于用于检测数据集中重复项的算法，该数据集太大而无法完全加载到内存中，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/15415070/

26

4

0

文章推荐： algorithm - 查找可被给定数字整除的数组元素的最大总和

文章推荐： html - 未打开的元素 "div"的结束标记。 HTML 验证错误

文章推荐： seo - 标签对 SEO 有影响吗？

文章推荐： algorithm - 多边形填充算法

java - 无法 Autowiring
我通过 spring ioc 编写了一些 Rest 应用程序。但我无法解决这个问题。这是我的异常(exception): org.springframework.beans.factory.BeanC
java - 无法@Autowire配置
我对 TestNG、Spring 框架等完全陌生，我正在尝试使用注释 @Value通过 @Configuration 访问配置文件注释。我在这里想要实现的目标是让控制台从配置文件中写出“hi”，通过
无法 malloc 然后转到程序顶部
为此工作了几个小时。我完全被难住了。这是 CS113 的实验室。如果用户在程序(二进制计算器)结束时选择继续，我们需要使用 goto 语句来到达程序的顶部。但是，我们还需要释放所有分配的内存。
无法 avformat_open_input .mp3
我正在尝试使用 ffmpeg 库构建一个小的 C 程序。但是我什至无法使用 avformat_open_input() 打开音频文件设置检查错误代码的函数后，我得到以下输出: Error code:
java - 无法 Autowiring
使用 Spring Initializer 创建一个简单的 Spring boot。我只在可用选项下选择 DevTools。创建项目后，无需对其进行任何更改，即可正常运行程序。现在，当我尝试在项目
macos - 无法 brew 链接qt
所以我只是在 Mac OS X 中通过 brew 安装了 qt。但是它无法链接它。当我尝试运行 brew link qt 或 brew link --overwrite qt 我得到以下信息: ton
git - 无法 pull 或提交
我在提交和 pull 时遇到了问题:在提交的 IDE 中，我看到: warning not all local changes may be shown due to an error: unable
gcc - 无法 grep 特定格式的文本
我跑 man gcc | grep "-L" 我明白了 Usage: grep [OPTION]... PATTERN [FILE]... Try `grep --help' for more inf
curl - 无法 CURL 远程文件
我有一段代码，旨在接收任何 URL 并将其从网络上撕下来。到目前为止，它运行良好，直到有人给了它这个 URL: http://www.aspensurgical.com/static/images/a
WireGuard - 无法 ping 服务器或解析域
在过去的 5 个小时里，我一直在尝试在我的服务器上设置 WireGuard，但在完成所有设置后，我无法 ping IP 或解析域。下面是服务器配置 [Interface] Address = 10.
GitLab:无法 fork 我自己的项目
我正在尝试在 GitLab 中 fork 我的一个私有(private)项目，但是当我按下 fork 按钮时，我会收到以下信息: No available namespaces to fork the
javascript - 无法 GET/定义路由
我这里遇到了一些问题。我是 node.js 和 Rest API 的新手，但我正在尝试自学。我制作了 REST API，使用 MongoDB 与我的数据库进行通信，我使用 Postman 来测试我的路
javascript - 无法 AppendChild - 尝试使一个方法在不同的类中附加另一个方法
下面的代码在控制台中给出以下消息: Uncaught DOMException: Failed to execute 'appendChild' on 'Node': The new child el
javascript - 数组被视为对象，无法 NgFor
我正在尝试调用一个新端点来显示数据，我意识到在上一组有效的数据中，它在数据周围用一对额外的“[]”括号进行控制台，我认为这就是问题是，而新端点不会以我使用数据的方式产生它! 这是 NgFor 失败的原
git - 无法 checkout 到无效路径
我正在尝试将我的 Symfony2 应用程序部署到我的 Azure Web 应用程序，但遇到了一些麻烦。推送到远程时，我在终端中收到以下消息 remote: Updating branch 'mas
docker - Minikube具有IP-无法 curl
Minikube已启动并正在运行，没有任何错误，但是我无法 curl IP。我在这里遵循:https://docs.traefik.io/user-guide/kubernetes/，似乎没有提到关闭
linux - 无法 docker 组成任何项目
每当我尝试docker组成任何项目时，都会出现以下错误。我尝试过有和没有sudo 我在这台机器上只有这个问题。我可以在Mac和Amazon WorkSpace上运行相同的容器。 (myslabs)
python - 无法 pip 安装手电筒
我正在尝试 pip install stanza 并收到此消息: ERROR: No matching distribution found for torch>=1.3.0 (from stanza
kubernetes 无法 ping 通其他服务
DNS 解析看起来不错，但我无法 ping 我的服务。可能是什么原因？来自集群中的另一个 Pod: $ ping backend PING backend.default.svc.cluster.l
spring - 无法 Autowiring 字段
我正在使用Hibernate 4 + Spring MVC 4当我开始 Apache Tomcat Server 8我收到此错误: Error creating bean with name 'wel

首页

博学

6Ren·AI

商城

用于检测数据集中重复项的算法，该数据集太大而无法完全加载到内存中