windows - 小读(重叠，缓冲)的性能优于大连续读的解释？-6ren

windows - 小读(重叠，缓冲)的性能优于大连续读的解释？

转载作者：行者123 更新时间：2023-12-01 23:00:06

25

4

(对于冗长的介绍，我们深表歉意)

在开发将整个大文件(> 400MB)预先故障转移到缓冲区高速缓存中以加快以后的实际运行速度的应用程序的开发过程中，我测试了一次读取4MB是否比一次仅读取1MB块还有明显的好处。令人惊讶的是，较小的请求实际上却更快。这似乎违反直觉，所以我进行了更广泛的测试。

在运行测试之前清除了缓冲区高速缓存(为笑起见，我也对缓冲区中的文件进行了一次运行。无论请求大小如何，缓冲区高速缓存均可提供高达2GB/s的速度，尽管令人惊讶地+/- 30％随机方差)。
使用的所有读取与具有相同目标缓冲区的ReadFile重叠(句柄使用FILE_FLAG_OVERLAPPED和不使用FILE_FLAG_NO_BUFFERING打开)。使用的硬盘有些陈旧，但是功能齐全，NTFS的群集大小为8kB。初始运行后对磁盘进行了碎片整理(6个碎片与未碎片化，零差)。为了获得更好的数字，我也使用了一个较大的文件，以下数字表示读取1GB。

结果确实令人惊讶:

4MB x 256    : 5ms per request,    completion 25.8s @ ~40 MB/s
1MB x 1024   : 11.7ms per request, completion 23.3s @ ~43 MB/s
32kB x 32768 : 12.6ms per request, completion 15.5s @ ~66 MB/s
16kB x 65536 : 12.8ms per request, completion 13.5s @ ~75 MB/s

因此，这表明提交两个长度为两个簇的一万个请求实际上比提交几百个大的连续读取要好。提交时间(ReadFile返回之前的时间)确实随着请求数量的增加而大大增加，但是异步完成时间几乎减少了一半。
每种情况下，在异步读取完成时，内核CPU时间大约为5-6％(在四核上，所以应该说20-30％)，这是令人惊讶的CPU数量-显然，操作系统会执行一些非忙碌的等待也可忽略不计。 30％的CPU在2.6 GHz下运行25秒，这是“无所事事”的相当多的周期。

知道如何解释吗？也许有人在这里对Windows重叠IO的内部工作有更深入的了解？或者，可以使用ReadFile读取兆字节数据的想法有什么本质上的错误吗？

我可以看到IO调度程序如何通过最小化寻道来优化多个请求，尤其是当请求是随机访问时(不是)。我还可以看到在NCQ中有一些请求，硬盘将如何执行类似的优化。
但是，我们谈论的是可笑的小请求的数量可笑的-然而，这些请求的性能要比看起来合理的高2倍。

旁注:明显的赢家是内存映射。我几乎倾向于添加“毫不奇怪”，因为我是内存映射的忠实拥护者，但是在这种情况下，这确实让我感到惊讶，因为“请求”更小，并且操作系统应该甚至无法预测和安排IO。我最初没有测试内存映射，因为它似乎甚至可以远程竞争，这似乎是违反直觉的。非常适合您的直觉，呵呵。

以不同的偏移量重复映射/取消映射 View 实际上需要零时间。使用一个16MB的 View 并通过一个简单的for()循环对每个页面进行故障读取，每页读取一个字节将以9.2秒的速度(〜111 MB/s)完成。 CPU使用率始终低于3％(一个内核)。同一台计算机，同一张磁盘，所有内容都相同。

似乎Windows一次将8个页面加载到缓冲区缓存中，尽管实际上只创建了一个页面。每第8页故障以相同的速度运行，并从磁盘加载相同数量的数据，但显示的“物理内存”和“系统缓存”指标较低，并且只有1/8的页故障。随后的读取证明了这些页面仍然明确地位于缓冲区高速缓存中(没有延迟，没有磁盘 Activity )。

(可能与 Memory-Mapped File is Faster on Huge Sequential Read?非常非常远地相关)

为了使其更具说明性:

更新:

使用 FILE_FLAG_SEQUENTIAL_SCAN似乎可以“平衡” 128k的读取，从而将性能提高100％。另一方面，它严重影响了512k和256k的读取(您必须知道为什么吗？)，而对其他任何内容都没有实际影响。较小块大小的MB/s图可以说看起来更“均匀”，但运行时间没有差异。

我可能已经找到了一种解释，也可以解释较小块的性能更好。如您所知，如果操作系统可以立即(即从缓冲区中)(并且由于各种特定于版本的技术限制)可以立即处理请求，则异步请求可以同步运行。

当考虑实际的异步与“立即”异步读取时，可能会注意到256k以上的Windows异步运行每个异步请求。块大小越小，即使无法立即使用(即ReadFile只是简单地同步运行)，也会“立即”处理更多请求。我无法确定清楚的模式(例如“前100个请求”或“超过1000个请求”)，但是请求大小和同步性之间似乎存在反相关关系。块大小为8k时，每个异步请求均被同步处理。
出于某种原因，缓冲的同步传输速度是异步传输的两倍(不知道为什么)，因此，请求大小越小，整体传输速度就越快，因为更多的传输是同步完成的。

对于内存映射的预故障，FILE_FLAG_SEQUENTIAL_SCAN会导致性能图的形状略有不同(存在一个“凹口”，该凹口向后移一点)，但是所用的总时间完全相同(再次，这令人惊讶，但是我不能帮助它)。

更新2:

无缓冲的IO使1M，4M和512k请求测试用例的性能图更高一些，并且“尖峰”，最大值为90s GB/s，但是最小值也很苛刻，因此1GB的总体运行时间在+/- 0.5以内s的缓冲运行时间(具有较小缓冲区大小的请求完成速度明显加快，但是，这是因为在处理2558个以上的请求时，将返回ERROR_WORKING_SET_QUOTA)。在所有无缓冲的情况下，测得的CPU使用情况均为零，这并不奇怪，因为发生的任何IO都通过DMA运行。
FILE_FLAG_NO_BUFFERING的另一个非常有趣的发现是，它极大地改变了API的行为。 CancelIO不再起作用，至少在取消IO方面无效。对于未缓冲的进行中请求， CancelIO将仅阻塞直到所有请求完成为止。律师可能会辩称，该功能不承担疏忽职责的责任，因为它返回时不再有运行中的请求，因此以某种方式完成了所要求的工作，但是我对“取消”的理解有所不同。
有了缓冲的，重叠的IO， CancelIO可以轻松解决问题，所有进行中的操作都会立即终止，正如人们所期望的那样。

另一个有趣的事情是，在所有请求完成或失败之前，该过程不可终止。如果操作系统在该地址空间中进行DMA，这种方式是有意义的，但是它仍然是一个令人惊叹的“功能”。

最佳答案

我不是文件系统专家，但是我认为这里发生了一些事情。首先。 w.r.t.您对内存映射获胜的评论。这并不完全令人惊讶，因为NT缓存管理器基于内存映射-通过自己进行内存映射，您可以在没有其他内存副本的情况下复制缓存管理器的行为。

当您从文件中顺序读取时，缓存管理器会尝试为您预取数据-因此您很可能在缓存管理器中看到预读的效果。在某些时候，缓存管理器停止预取读取(或者在某个时候，预取的数据不足以满足您的读取，因此缓存管理器必须停止)。这可能是造成您看到的较大I/O速度下降的原因。

您是否尝试过将FILE_FLAG_SEQUENTIAL_SCAN添加到CreateFile标志中？这指示预取器更加激进。

这可能是违反直觉的，但传统上从磁盘读取数据的最快方法是使用异步I/O和FILE_FLAG_NO_BUFFERING。当您这样做时，I/O将从磁盘驱动器直接进入您的I/O缓冲区，而不会造成任何阻碍(假设文件的各段是连续的-如果不是，则文件系统必须发出几次磁盘读取以满足应用程序读取请求)。当然，这也意味着您将失去内置的预取逻辑，必须自己动手。但是使用FILE_FLAG_NO_BUFFERING，您可以完全控制I/O管道。

要记住的另一件事:当您执行异步I/O时，确保始终有一个I/O请求非常重要-否则，您将失去最后一个I/O完成与下一个I/O之间的时间。开始。

关于windows - 小读(重叠，缓冲)的性能优于大连续读的解释？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/5909345/

25

4

0

文章推荐： ios - MKMapView 在注释选择 iOS8 上显示空白

文章推荐： java - 将文件类型从 JAVA000064 更改为 JAVA

文章推荐： oracle - 在oracle中垂直显示结果

javascript - Ember.js，性能，性能 :
性能:数据存储写入与请求日志写入
我们希望通过我们的应用收集使用情况统计信息。因此，我们希望在服务器端的某个地方跟踪用户操作。就性能而言，哪个选项更合适: 在 App Engine 请求日志中跟踪用户操作。即为每个用户操作写入一个日
LINQ 性能
在针对对象集合的 LINQ 查询的幕后究竟发生了什么？它只是语法糖还是发生了其他事情使其更有效的查询？最佳答案您是指查询表达式，还是查询在幕后的作用？查询表达式首先扩展为“普通”C#。例如: v
WPF 性能
我正在构建一个简单的照片库应用程序，它在列表框中显示图像。 xaml 是:
java缓存系统和静态HashMap存储-性能
对于基于 Web 的企业应用程序，使用“静态 Hashmap 存储对象” 和 apache java 缓存系统有何优缺点？哪一个最有利于性能并减少堆内存问题例如: Map store=Applica
jquery存储变量类(性能)
我想知道在性能方面存储类变量的最佳方式是什么。我的意思是，由于 Children() 函数，存储一个 div id 比查找所有其他类名更好。还是把类名写在变量里比较好？例如这样: var $inne
Cassandra 性能
我已经阅读了所有这些关于 cassandra 有多快的文章，例如单行读取可能需要大约 5 毫秒。到目前为止，我不太关心我的网站速度，但是随着网站变得越来越大，一些页面开始需要相当多的查询，例如一个页
MySQL 性能
最近，我在缓存到内存缓存之前的查询一直需要很长时间才能处理!在这个例子中，它花费了 10 秒。在这种情况下，我要做的就是获得 10 个最近的点击。我感觉它加载了所有 125,592 行然后只返回 1
基本操作的C#性能
我找了几篇文章(包括SA中的一些问题)，试图找到基本操作的成本。但是，我尝试制作自己的小程序，以便自己进行测试。在尝试测试加法和减法时，我遇到了一些问题，我用简单的代码向您展示了这一点
Java远程调试——性能
这个问题在这里已经有了答案: Will Java app slow down by presence of -Xdebug or only when stepping through code? (
Javascript with() 性能
我记得很久以前读过 with() 对 JavaScript 有一些严重的性能影响，因为它可能对范围堆栈进行非确定性更改。我很难找到最近对此的讨论。这仍然是真的吗？最佳答案与其说 with 对性能有
MySQL 性能
我们有一个数据仓库，其中包含非规范化表，行数从 50 万行到 6 多万行不等。我正在开发一个报告解决方案，因此出于性能原因我们正在使用数据库分页。我们的报告有搜索条件，并且我们已经创建了必要的索引，但
mysql - 性能
我有一条有效的 SQL 语句，但需要很长时间才能处理我有一个 a_log 表和一个 people 表。我需要在 people 表中找到给定人员的每个 ID 的最后一个事件和关联的用户。 SELECT
JavaScript 性能
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
CSS 性能
通常当我建立一个站点时，我将所有的 CSS 放在一个文件中，并且一次性定义与一组元素相关的所有属性。像这样: #myElement { color: #fff; background-
CSS 性能
两者之间是否存在任何性能差异: p { margin:0px; padding:0px; } 并省略最后的分号: p { margin:0px; padding:0px } 提前致谢!
PHP高精数学-性能
我的应用程序 (PHP) 需要执行大量高精度数学运算(甚至可能出现一共100个数字) 通过这个论坛的最后几篇帖子，我发现我必须使用任何高精度库，如 BC Math 或 GMP，因为 float 类型不
Javamail 性能
我一直在使用 javamail 从 IMAP 服务器(目前是 GMail)检索邮件。 Javamail 非常快速地从服务器检索特定文件夹中的消息列表(仅 id)，但是当我实际获取消息(仅包含甚至不包含
ruby 性能
我非常渴望开发我的第一个 Ruby 应用程序，因为我的公司终于在内部批准了它的使用。在我读到的关于 Ruby v1.8 之前的所有内容中，从来没有任何关于性能的正面评价，但我没有发现关于 1.9 版
redis结构、性能
我是 Redis 的新手，我有一个包含数百万个成员(member) ID、电子邮件和用户名的数据集，并且正在考虑将它们存储在例如列表结构中。我认为 list 和 sorted set 可能最适合我的情

首页

博学

6Ren·AI

商城

windows - 小读(重叠，缓冲)的性能优于大连续读的解释？