- iOS/Objective-C 元类和类别
- objective-c - -1001 错误,当 NSURLSession 通过 httpproxy 和/etc/hosts
- java - 使用网络类获取 url 地址
- ios - 推送通知中不播放声音
我想知道进行并行外部排序时的复杂性是什么。
假设我有一个大数组 N 和有限的内存。 F.e 10 亿个条目要排序,条目内存中只有 1k。
对于这种情况,我使用并行线程将大数组分成 K 个排序文件, block 大小为 B,并保存在磁盘中。
从所有文件中读取后,使用 pripriityQueue 和线程合并回新数组。
我需要用大 O 表示法计算复杂度。
如果我使用多进程(比方说 N 个处理器),复杂性会怎样?
is it ~O(N/10 * log N) ??
谢谢
最佳答案
无论处理器数量和/或外部驱动器数量如何,时间复杂度都将为 O(n log(n))。总时间为 T(n/a logb(n)),但由于 a 和 b 是常量,时间复杂度在 O(n log(n)) 时保持不变,即使时间快 10 倍.
我不清楚“并行”外部排序是什么意思。我假设有多个内核或多个处理器,但是否还有多个驱动器?所有 N 个内核或处理器是否共享仅包含 1k 元素的相同内存,或者每个内核或处理器是否有自己的“1k”内存(实际上有“Nk”内存)?
一般的外部归并排序
在初始遍历中,输入数组以大小为 B 的 block (1k 个元素)读取,排序,然后写入 K 个排序文件。此初始传递的最终结果是大小为 B(1k 个元素)的 K 个排序文件。所有剩余的遍将重复合并排序的文件,直到生成单个排序的文件。
初始 channel 通常受 cpu 限制,使用多个内核或处理器对每个大小为 B 的 block 进行排序会减少时间。任何排序方法或任何稳定的排序方法都可以用于初始传递。
对于合并阶段,能够在执行合并操作的同时执行 I/O 将减少时间。使用多线程将 I/O 与合并操作重叠将减少时间,并且比使用异步 I/O 来做同样的事情更简单。我不知道有什么方法可以使用多线程来减少 k 路合并操作的时间。
对于 k 路合并,文件以大小为 B/(k+1) 的较小块读取。这允许 k 个输入缓冲区和 1 个输出缓冲区用于 k 路合并操作。
对于硬盘驱动器,随机访问开销是一个问题,假设传输速率为 200 MB/s,平均随机访问开销为 0.01 秒,这与传输 2 MB 的时间相同。如果缓冲区大小为 2 MB,则随机访问开销会有效地将传输速率降低 1/2 至约 100 MB/s。如果缓冲区大小为 8 KB,则随机访问开销会有效地将传输速率降低 1/250 至约 0.8 MB/s。由于随机访问的开销,使用小缓冲区时,双向合并会更快。
对于非服务器设置中的 SSD,通常没有命令排队,命令开销约为读取时的 .0001 秒,写入时的 .000025 秒。 Sata 接口(interface) SSD 的传输速率约为 500 MB/s。如果缓冲区大小为 2MB,则命令开销微不足道。如果缓冲区大小为 4KB,则读取速率降低 1/12.5 至约 40 MB/s,写入速率降低 1/3.125 至约 160 MB/s。因此,如果缓冲区大小足够小,那么 2 路合并会更快。
在 PC 上,这些小缓冲区场景不太可能发生。对于大型文本文件的 gnu 排序,在默认设置下,它分配 1GB 多一点的 ram,在初始传递时创建 1GB 排序文件,并进行 16 路合并,因此缓冲区大小为 1GB/17 ~ = 60 MB。 (17 代表 16 个输入缓冲区,1 个输出缓冲区)。
考虑所有数据都在内存中的情况,并且内存由 k 个排序列表组成。合并列表的时间复杂度将为 O(n log(k)),无论是否使用 2 向合并排序,以任何顺序合并列表对,或者是否使用 k 向合并排序来合并所有一次列出。
我在我的系统上对此做了一些实际测试,Intel 3770K 3.5ghz,Windows 7 Pro 64 位。对于基于堆的 k 路合并,k = 16,传输速率约为 235 MB/秒,k = 4,传输速率约为 495 MB/秒。对于非堆 4 路合并,传输速率约为 1195 MB/秒。硬盘传输速率通常为 70 MB/秒到 200 MB/秒。典型的 SSD 传输速率约为 500 MB/秒。昂贵的服务器类型 SSD(SAS 或 PCIe)读取速度高达 ~2GB/秒,写入速度高达 ~1.2GB/秒。
关于algorithm - 并行外部排序的复杂度是多少,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54721835/
如何指示 webpack 排除所有 d3 模块? // does not work externals: { "d3-*": "d3" } 所以如果应用导入了d3-submod
这个问题在这里已经有了答案: 9年前关闭。 Possible Duplicate: What does “outer =>” really mean? 我在哪里可以找到有关信息 trait After
这是一个简单的循环,我正在尝试对性能进行基准测试。 var extremeLoop=function(n){ var time=new Date() var t=0; for(
问题+概述 下面是两个片段,其中包含最初隐藏的 div,然后通过单击 button 和 jQuery 的 .show() 显示。两个 div 都具有由外部样式表应用的 display: grid; 样
我有一个 HTML 页面和一个单独的 .js 文件,该文件包含在带有 的页面中标签。 这是我的 .js 文件: element = document.getElementById("test");
我在 linux 静态库项目中有 3 个文件,我想在两个类方法实现文件中使用的静态字段存在链接问题。我有 class1.h、class1main.cpp 和 class1utils.cpp。 clas
我正在尝试将颜色背景更改为默认背景颜色,当我点击输入框外 我尝试使用“null”或“none”但没有用? window.addEventListener('click', outsideClick);
我正在编写一个应用程序,要求用户在手机上选择各种类型的文件。我使用此代码启动文件选择器 Intent : Intent intent = new Intent(Intent.ACTION_GET_C
在 android 中,不可移动(内部)的外部存储和内部存储有什么区别?我不确定在哪里保存我的数据。我只需要保存一个人可以随时提取的游戏统计数据 谢谢 最佳答案 在许多较新的设备中,将不再有物理区别,
在 C++ 中,假设我们有这个头文件: myglobals.h #ifndef my_globals_h #define my_globals_h int monthsInYear = 12; #en
我正在尝试使用 externs 在 C++ 中连接到 Ada。这两种实现有什么区别? 实现A namespace Ada { extern "C" { int getN
这个问题在这里已经有了答案: Get selected element's outer HTML (30 个答案) 关闭 2 年前。 想象一下我们有这样的东西: Hello World 如果我们这样
假设我在模块的顶部有这个: Public Declare Function getCustomerDetails Lib "CustomerFunctions" () As Long 如果我从 VB6
我目前正在使用这段代码: var wordRandomizer = { run: function (targetElem) { var markup = this.creat
我们正在使用 SVN 试水,并以 Beanstalk 作为主机。我们的设置如下所示: 存储库:模块 模块一 模块二 模块 3 存储库:网站1 自定义网站代码 svn:对模块 1 的外部引用 svn:对
有没有办法在负载均衡器中设置自动外部 IP 分配给像谷歌这样的服务? 我在裸机上运行 Kubernetes。 谢谢 最佳答案 使用 nodePort 类型的服务,它会将您的服务绑定(bind)到所有节
是否有可能在 Controller 之外使用 generateUrl() 方法? 我尝试在带有 $this->get('router') 的自定义存储库类中使用它,但它没有用。 更新 我在这里找到了一
我目前正在尝试通过 Webpack 外部对象外部化 Angular 依赖项来缩短构建时间。到目前为止,我已经为 React 和其他小库实现了这一目标。 如果我只是移动 '@angular/compil
我想创建一个自动应用其他插件的插件(外部插件)。这要求在我称为“应用插件”之前为插件设置构建脚本依赖项。但是似乎我无法在插件中添加buildscript依赖项,或者得到了: 您不能更改处于未解析状态的
我是R包的创建者EnvStats . 有一个我经常使用的函数,叫做 stripChart .我刚开始学习ggplot2 ,并在过去几天里仔细研究了 Hadley 的书、Winston 的书、Stack
我是一名优秀的程序员,十分优秀!