- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在处理来自一个大文件的硬盘数据(处理速度很快而且开销不大),然后必须将结果写回(数十万个文件)。
我开始直接将结果写入文件,一次一个,这是最慢的选择。我认为如果我构建一定数量的文件的 vector 然后一次写入它们,然后在硬盘被占用写入我倒入其中的所有东西时返回处理,它会变得更快(那个至少看起来是这样)。
我的问题是,我能以某种方式估计我应该从硬件约束写入的数据量的收敛值吗?对我来说,这似乎是一个硬盘缓冲区的事情,我在那个硬盘上有 16MB 的缓冲区并获得这些值(全部用于 ~100000 个文件):
Buffer size time (minutes)
------------------------------
no Buffer ~ 8:30
1 MB ~ 6:15
10 MB ~ 5:45
50 MB ~ 7:00
或者这只是巧合?
我也对一般如何优化写入性能的经验/经验法则感兴趣,例如,更大的硬盘 block 是否有帮助等。
编辑:
硬件是非常标准的消费驱动器(我是学生,不是数据中心)WD 3,5 1TB/7200/16MB/USB2,HFS+ journaled,操作系统是 MacOS 10.5。我很快就会在 Ext3/Linux 和内部磁盘而不是外部磁盘上尝试一下。
最佳答案
Can I somehow estimate a convergence value for the amount of data that I should write from the hardware constraints?
从长远来看不会。问题在于您的写入性能将在很大程度上取决于至少四件事:
您正在使用哪个文件系统
内核使用什么磁盘调度算法
磁盘的硬件特性
您正在使用的硬件互连
例如USB比IDE慢,IDE又比SATA慢。如果 XFS 在写入许多小文件方面比 ext2 快得多,我也不会感到惊讶。内核一直在变化。因此,这里的因素太多,无法轻松做出简单的预测。
如果我是你,我会采取以下两个步骤:
将我的程序拆分为多个线程(甚至进程),并使用一个线程传递系统调用open
、write
和close
尽快到操作系统。如果您可以将线程数作为运行时参数,则可加分。
与其尝试根据硬件特性来估计性能,不如编写一个程序来尝试一系列备选方案,并为当天的特定硬件和软件组合找到最快的一个。将最快的替代方案保存在文件中,甚至将其编译到您的代码中。该策略由 Matteo Frigo 为 FFTW 开创而且非常有效。
然后,当您更改磁盘、互连、内核或 CPU 时,您只需重新运行配置程序即可!您的代码将被优化以获得最佳性能。
关于c++ - 在处理时写入数据 block - 由于硬件限制是否存在收敛值?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/1989977/
我刚刚意识到二进制编译器会将源代码转换为目标平台的二进制文件。有点明显...但如果编译器以这种方式工作,那么同一个编译器如何用于不同的系统,如 x86、ARM、MIPS 等? 难道他们不应该“知道”硬
在我的 SDL 游戏中,出于游戏玩法和性能原因,我希望保留固定的游戏区域分辨率。 我想做的是有一个小分辨率(例如 320 * 240),并且在调整窗口大小时/切换到全屏模式时让 SDL/显卡缩放每个像
我正在使用这些方法来激活 SurFaceView 上的触摸焦点 private SurfaceView surfaceiew; private CameraSource camSource; priv
您好,当我从硬件菜单更改设备时,我遇到了这个奇怪的问题,但我想我可能遗漏了一些简单的东西。 我的 View Controller 中有这段代码: - (void)touchesBegan:(NSSet
编写一个名为 weird() 的函数,它将三个字符串作为参数并向后打印最长的一个。 (在平局的情况下,应该选择较早的参数字符串。 函数调用: weird("I", "Love", "Python")
您好,我正在尝试设置 hadoop 环境。简而言之,我要解决的问题涉及数十亿个大小为几 MB 的 XML 文件,使用 HIVE 从中提取相关信息,并对这些信息进行一些分析工作。我知道这在 hadoop
我知道 Phidgets,但是,我正在寻找可以与 C# 接口(interface)的一些其他类型的硬件。 谁有好东西? 最佳答案 查看 Netduino .它基于 Arduino,但使用 .Net
说一个函数(例如模乘法、正弦函数)是在硬件而不是软件中实现是什么意思? 最佳答案 在硬件中实现意味着电路(通过逻辑门等)可以执行操作。 例如,在 ALU 中,处理器在物理上能够将一个字节加到另一个字节
我需要编写一个程序,在可能状态的大空间中执行并行搜索,在此过程中发现了新区域(并开始了他们的探索),并且由于在其他地方获得的中间结果消除了可能性,因此提前终止了对某些区域的探索在其中发现新的有用结果。
我们需要通过带有硬件 token 的 EV 代码对 InstallShield 2013 Express 的安装进行签名,但是无法导出私钥证书文件,因此唯一的方法是使用 DigiCertUtil 工具
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 2 年前。 Improve this ques
我考虑从库中丢弃处理大端情况的代码,如果平台不是小端,则在初始化期间简单地抛出一个异常。如果我们限制为,我无法想象会有任何大端硬件 托管任何网站的典型服务器硬件 服务器根据开放计算项目规范 所有常见的
我知道这可以做到,但找不到交换目标调试设备的地方。我现在正在使用模拟器,但想切换到设备,反之亦然。谁能指出我正确的方向? 谢谢。 最佳答案 像这样.. 右键单击 PROJECT--->Run As--
我正在尝试创建一个监听音量键事件的服务。 每当按下音量键时,服务应向号码发送短信,但我无法检测到音量键事件。 最佳答案 您可以使用 OnKeyListener可以检测按键事件(包括音量键)。您可以找到
谁能解释一下中断如何从最低层(硬件)传递到应用程序。 所以在下图中我知道处理器之后发生了什么。 但是我想要从键盘按下到处理器的中断过程在硬件中发生了什么,例如它如何传递扫描代码,中断 Controll
我的任务是构建一个应用程序,其中业务用户将定义一些数据操作和处理规则(例如,取一个数值并将其平均分配给根据中指定的条件选择的多个记录)规则)。 每月必须运行一个批处理应用程序,以便根据定义的规则处理大
所以这是我的愚蠢问题: PGP/GPGP可以用来对文本进行签名,其他的使用公钥来验证。 比方说,非对称密码算法处理空间。 有没有什么算法可以处理时间? 例如在 2011-10-10 10:10:10
使用 nvcc 编译 CUDA 程序是否需要安装支持 CUDA 的显卡(在 Linux 中)?或者可以在任何地方编译程序并且只能在这样的系统上运行? 最佳答案 不,编译不需要显卡。 您甚至不需要一个来
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 这个问题似乎不是关于 a specific programming problem, a softwar
我有一个奇怪的问题,但我对这个话题很感兴趣。 是否有可能直接访问当前基于 x64 的计算机的硬件,而无需使用某种 HAL(硬件抽象层)或其他操作系统(udev、upower 等)的附属物?我不是在谈论
我是一名优秀的程序员,十分优秀!