c - 为什么进程的内存分配很慢，可以更快吗？-6ren

c - 为什么进程的内存分配很慢，可以更快吗？

转载作者：太空狗更新时间：2023-10-29 16:23:49

我比较熟悉虚拟内存的工作原理。所有进程内存都被划分为页面，虚拟内存的每一页都映射到实内存中的一个页面或交换文件中的一个页面，或者它可以是一个新页面，这意味着物理页面仍未分配。操作系统按需将新页面映射到实内存，而不是在应用程序通过 malloc 请求内存时，但仅当应用程序实际访问分配的内存中的每个页面时。但我还有疑问。

我在使用 linux 分析我的应用程序时注意到了这一点 perf工具。

内核函数占用了大约 20% 的时间:clear_page_orig , __do_page_fault和 get_page_from_free_list .这比我对这项任务的预期要多得多，我已经做了一些研究。

让我们从一些小例子开始:

#include <stdlib.h>
#include <string.h>
#include <stdio.h>

#define SIZE 1 * 1024 * 1024

int main(int argc, char *argv[]) {
  int i;
  int sum = 0;
  int *p = (int *) malloc(SIZE);
  for (i = 0; i < 10000; i ++) {
    memset(p, 0, SIZE);
    sum += p[512];
  }
  free(p);
  printf("sum %d\n", sum);
  return 0;
}

假设 memset只是一些内存绑定(bind)处理。在这种情况下，我们一次分配一小块内存并一次又一次地重用它。我会像这样运行这个程序:

$ gcc -O1 ./mem.c && time ./a.out

-O1需要，因为 clang与 -O2完全消除循环并立即计算值。

结果是:用户:0.520s，系统:0.008s。根据 perf , 99% 的时间都在 memset来自 libc .因此，对于这种情况，写入性能约为 20 GB/s，比我的内存的理论性能 12.5 Gb/s 高。看起来这是由于 L3 CPU 缓存造成的。

让更改测试并开始在循环中分配内存(我不会重复代码的相同部分):

#define SIZE 1 * 1024 * 1024
for (i = 0; i < 10000; i ++) {
  int *p = (int *) malloc(SIZE);
  memset(p, 0, SIZE);
  free(p);
}

结果完全一样。我相信 free实际上并没有为操作系统释放内存，它只是将它放在进程中的某个空闲列表中。和 malloc在下一次迭代中，只需获得完全相同的内存块。这就是为什么没有明显差异的原因。

让我们从 1 兆字节开始增加 SIZE。执行时间会一点一点地增长，并会在 10 兆字节附近饱和(对我来说 10 和 20 兆字节之间没有区别)。

#define SIZE 10 * 1024 * 1024
for (i = 0; i < 1000; i ++) {
  int *p = (int *) malloc(SIZE);
  memset(p, 0, SIZE);
  free(p);
}

时间显示:用户:1.184s，系统:0.004s。 perf仍然报告超过 99% 的时间在 memset ，但吞吐量约为 8.3 Gb/s。那时，我或多或少地了解正在发生的事情。

如果我们继续增加内存块大小，在某些时候(对我来说是 35 Mb)执行时间将急剧增加:用户:0.724 秒，系统:3.300 秒。

#define SIZE 40 * 1024 * 1024
for (i = 0; i < 250; i ++) {
  int *p = (int *) malloc(SIZE);
  memset(p, 0, SIZE);
  free(p);
}

根据 perf , memset将仅消耗 18% 的时间。

显然，内存是从操作系统分配的，并在每一步释放。正如我之前提到的，操作系统应该在使用前清除每个分配的页面。所以 clear_page_orig 的 27.3%看起来并不特别:clear mem 只需要 4s * 0.273 ≈ 1.1 秒——与我们在第三个例子中得到的一样。 memset占用了 17.9%，这导致 ≈ 700 毫秒，这是正常的，因为在 clear_page_orig 之后内存已经在 L3 缓存中了。 (第一个和第二个例子)。

我不明白——为什么最后一种情况比 memset 慢 2 倍用于内存 + memset L3缓存？我可以用它做点什么吗？

结果在 native Mac OS、Vmware 下的 Ubuntu 和 Amazon c4.large 实例上是可重现的(差异很小)。

另外，我认为有两个层面的优化空间:

在操作系统级别 .如果操作系统知道它将页面返回给它之前所属的同一应用程序，则无法清除它。

在 CPU 级别 .如果 CPU 知道该页面曾经是空闲的，则它可以不清除内存中的页面。它可以在缓存中清除它并在缓存中进行一些处理后将其移动到内存中。

最佳答案

这里发生的事情有点复杂，因为它涉及几个不同的系统，但这绝对与上下文切换成本无关；您的程序很少进行系统调用(使用 strace 验证这一点)。

首先了解一些关于方式的基本原则很重要malloc实现通常有效:

最malloc实现通过调用 sbrk 从操作系统获取一堆内存或 mmap在初始化期间。获得的内存量可以在一些malloc中进行调整实现。一旦获得内存，它通常会被切割成不同大小的类别并排列在一个数据结构中，这样当程序请求内存时，例如 malloc(123) , malloc实现可以快速找到符合这些要求的一块内存。

当您拨打 free , 内存返回到一个空闲列表，可以在后续调用 malloc 时重新使用。 .一些 malloc实现允许您精确调整其工作方式。

当您分配大块内存时，大多数 malloc实现将简单地将大量内存的调用直接传递给 mmap系统调用，它一次分配内存的“页面”。对于大多数系统，1 页内存为 4096 字节。

相关的，大多数操作系统将尝试清除内存页面，然后再将它们分发给通过 mmap 请求内存的进程。或 sbrk .这就是为什么您会看到拨打 clear_page_orig 的电话的原因。在性能输出中。此函数试图将 0 写入内存页。

现在，这些原则与另一个有很多名字但通常被称为“需求分页”的想法相交。 “需求分页”的意思是当用户程序从操作系统请求一块内存时(比如通过调用 mmap )，内存分配在进程的虚拟地址空间中，但没有物理 RAM 支持内存呢。

以下是需求分页流程的概要:

一个名为 mmap 的程序分配 500MB 的 RAM。

内核为请求的 500 MB RAM 映射进程地址空间中的地址区域。它映射物理 RAM 的“几个”(依赖于操作系统的)页面(通常每个 4096 字节)以支持这些虚拟地址。

用户程序通过写入开始访问内存。

最终，用户程序将访问一个有效的地址，但没有物理 RAM 支持它。

这会在 CPU 上产生页面错误。

内核通过查看进程正在访问一个有效地址来响应页面错误，但没有物理 RAM 支持它。

然后内核找到要分配给该区域的 RAM。如果其他进程的内存需要首先写入磁盘(“换出”)，这可能会很慢。

您在最后一种情况下看到性能下降的最可能原因是:

您的内核已经用完了可以分配来满足您对 40 MB 的请求的零页内存，因此正如您的 perf 输出所证明的那样，它一遍又一遍地将内存归零。

当您访问尚未映射的内存时，您正在生成页面错误。由于您访问的是 40mb 而不是 10mb，您将产生更多页面错误，因为需要映射的内存页面更多。

正如另一个答案指出的那样，memset是 O(n) 意味着您需要写入的内存越多，所需的时间就越长。

不太可能，因为现在 40mb 的 RAM 并不多，但请检查系统上的可用内存量，以确保您有足够的 RAM。

如果您的应用程序对性能极其敏感，您可以改为拨打 mmap直接和:

通过MAP_POPULATE标志将导致所有页面错误预先发生并将所有物理内存映射到 - 然后您将不会为访问页面错误支付成本。

通过MAP_UNINITIALIZED标志，它将尝试避免在将内存页面分发到您的进程之前将其归零。请注意，使用此标志是一个安全问题，除非您完全了解使用此选项的含义，否则不应使用。进程可能会被分配给其他无关进程用于存储敏感信息的内存页。另请注意，必须编译您的内核以允许此选项。大多数内核(如 AWS Linux 内核)默认未启用此选项。您几乎肯定不应该使用此选项。

我要提醒您的是，这种级别的优化几乎总是一个错误；大多数应用程序的优化悬而未决，不涉及优化缺页错误成本。在现实世界的应用程序中，我建议:

避免使用 memset在大内存块上，除非确实有必要。大多数情况下，在同一进程重新使用之前清零内存是没有必要的。

避免一遍又一遍地分配和释放相同的内存块；也许您可以简单地预先分配一个大块，然后根据需要重新使用它。

使用 MAP_POPULATE如果访问页面错误的成本确实对性能有害(不太可能)，则上面的标志。

如果您有任何问题，请发表评论，如果需要，我很乐意编辑这篇文章并对此进行扩展。

关于c - 为什么进程的内存分配很慢，可以更快吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39947921/

文章推荐： java - 更改 View 位置

文章推荐： android - 如何在 Button 自己的 onClick 方法中删除它？

文章推荐： android - OnKeyListener 只检测返回键

文章推荐： android - 如何将 HTML 模板加载到 WebView 中？

windows - FFMPEG - 加速视频延时 - 更快/更快？
好吧，我知道这个问题已经被问了无数次了。但是，对于我在谷歌搜索中似乎无法找到的问题，我还有一个小补充。我当然不是 FFMPEG 的专家……我一直在使用 FFMPEG 的标准加速/减速模板，我正在使用
CouchDB - 参数和 View - 幕后发生了什么，它是否比临时 View 更快/更快？
考虑这三个文档... [ { _id: "...", _rev: "...", title: "Foo", body: "...
c# - 在 App_Code 的类中使用 const 是否比在 webforms asp.net 应用程序的 config.web 中使用 appSettings 更快/更快？
我想知道访问我的全局变量的最快方法...它们只会在 Beta 测试阶段发生变化。在我们上线之前。从那时起，它们将永远不会改变。我认为从 web.config 中获取内容会产生开销，而且编写 App.
SQL:BETWEEN 和 IN(更快)
这个问题在这里已经有了答案: 11 年前关闭。 Possible Duplicate: Is there a performance difference between BETWEEN and IN
oracle - 全局分区索引是否比非分区索引更好(更快)？
我很想知道对通常作为查询目标的数字列进行分区是否有性能优势。目前我有一个包含约 5000 万条记录的物化 View 。当使用常规 b 树索引并按此数字列搜索时，我得到的成本为 7，查询结果大约需要 0
java - 更快/更好的方式如何进行多个远程内容获取
我需要编写一个库，它执行许多远程 HTTP 调用来获取内容。我可以按照描述做here ，但是有没有更好的方法(在性能方面)如何做到这一点？如果我按照示例中所述进行操作，我总是会创建一个 URL 对象，
javascript - 如何使这个谷歌表格脚本代码更短/更快？
该代码非常不言自明。只是有很多我需要独立随机化的范围。例如，范围('W1:W4')不应与范围('W5:W8')混淆，因此我不能只是随机化范围('W1:W80')。任何帮助或建议都会很棒!多谢。目前，代
android:哪个是最好的模拟器配置？更快
我正在使用 ADT 模拟器。我在我的模拟器中使用默认的 Android 虚拟设备。我创建了一个版本 4.0.3。问题太慢了。有时我在尝试更改 fragment 时会收到加载点击。我使用的代码是有
php - 更快/更轻松地查询此结果数组
我正在尝试获取一个包含三个表中的信息的数组。结果应该是一个数组，我可以在其中循环遍历第一个表、第二个表中的相关行以及第三个表到第二个表中的相关行。目前，我有三个独立的 SQL 查询，然后将它们重组为一
ios - 哪种方式在服务器上上传图片更好(更快)
我已经学会了两种在服务器上上传图像的方法(可能还有更多..)。 1) 创建 NSData 并将其添加到请求正文中 2)创建字节数组并像简单数组一样以json形式发送 1) 创建 NSData 并将其添
ios - ViewDidAppear 更快
我有一个 UItextview，我可以在里面写入数据类，我可以在我的 View 中的任何地方提供数据，在 ViewDidAppear 函数中我传递了我的数据，但它有点慢。文本在 0.2-0.3 秒后出
ios - discoverAllContactUserInfosWithCompletionHandler 更快？
如何为 discoverAllContactUserInfosWithCompletionHandler 创建优先级高于默认值的 CKOperation？我找不到不使用 [[CKContainer
linux - 调用内核级函数比clock()更快
我在 unix 模块下编写了一个内核级函数，用于对系统负载进行采样。我在 clock.c 下的 clock() 中调用示例函数，以在每个时钟(例如，我的系统上每 10 毫秒)拍摄系统负载的快照。有没有
c++ - ReadProcessMemory 更快
我正在制作一个应用程序，该应用程序将根据变量的值使用鼠标/键盘(宏)模拟操作。这里有我制作的 de 扫描代码: void ReadMemory(int value){ DWORD p
javascript - 为什么调用嵌套在函数对象中的函数比...更快？
我想知道在计算上调用嵌套在对象中的函数的最快方法是什么，所以我做了一个快速的 jsPerf.com 基准测试，其中我考虑了三种可能性——从数组中调用函数，从“核心”中调用函数对象和函数对象: var
php - 调用缓存图像时哪个更有效/更快？
我用 php 做了一个图像缩放器。调整图像大小时，它会缓存一个具有新尺寸的新 jpg 文件。下次您调用确切的 img.php?file=hello.jpg&size=400 时，它会检查是否已经创建了
C#，结构与类，更快？
这个问题在这里已经有了答案: 关闭 11 年前。 Possible Duplicate: Which is best for data store Struct/Classes? 考虑我有一个 Em
r - 为多组列动态创建行的替代(更快)方法
我正在尝试为多组列自动计算每行的平均分数。例如。一组列可以代表不同比例的项目。这些列也被系统地命名 (scale_itemnumber)。例如，下面的虚拟数据框包含来自三个不同比例的项目。(可能会出
java - 是什么让 hashmap 更快？
所以我知道散列图使用桶和散列码等等。根据我的经验，Java 哈希码并不小，但通常很大，所以我假设它没有在内部建立索引。除非哈希码质量很差导致桶长度和桶数量大致相等，否则 HashMap 比名称-> 值
java - 如何使用多线程使慢速 "for loop"更快？
假设我有一个非常缓慢和大的 for 循环。如何将其拆分为多个线程以使其运行速度更快？ for (int a = 0; a { slowMet

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 为什么进程的内存分配很慢，可以更快吗？