c++ - mmap问题，分配大量内存-6ren

c++ - mmap问题，分配大量内存

转载作者：IT老高更新时间：2023-10-28 21:35:14

25

4

我有一些需要解析的大文件，人们一直在推荐 mmap，因为这样可以避免将整个文件分配到内存中。

但是看着“顶部”，它看起来确实像我将整个文件打开到内存中，所以我想我一定是做错了什么。 '顶级节目 >2.1 gig'

这是一个显示我在做什么的代码片段。

谢谢

#include <stdio.h>
#include <stdlib.h>
#include <err.h>
#include <fcntl.h>
#include <sysexits.h>
#include <unistd.h>
#include <sys/stat.h>
#include <sys/types.h>
#include <sys/mman.h>
#include <cstring>
int main (int argc, char *argv[] ) {
  struct stat sb;
  char *p,*q;
  //open filedescriptor
  int fd = open (argv[1], O_RDONLY);
  //initialize a stat for getting the filesize
  if (fstat (fd, &sb) == -1) {
    perror ("fstat");
    return 1;
  }
  //do the actual mmap, and keep pointer to the first element
  p =(char *) mmap (0, sb.st_size, PROT_READ, MAP_SHARED, fd, 0);
  q=p;
  //something went wrong
  if (p == MAP_FAILED) {
    perror ("mmap");
    return 1;
  }
  //lets just count the number of lines
  size_t numlines=0;
  while(*p++!='\0')
    if(*p=='\n')
      numlines++;
  fprintf(stderr,"numlines:%lu\n",numlines);
  //unmap it
  if (munmap (q, sb.st_size) == -1) {
    perror ("munmap");
    return 1;
  }
  if (close (fd) == -1) {
    perror ("close");
    return 1;
  }
  return 0;
}

最佳答案

不，您正在做的是将文件映射到内存中。这与实际将文件读入内存不同。

如果您要读入它，则必须将整个内容传输到内存中。通过映射它，您可以让操作系统处理它。如果您尝试读取或写入该内存区域中的某个位置，操作系统将首先为您加载相关部分。除非需要整个文件，否则它不会加载整个文件。

这就是您获得性能提升的地方。如果你映射整个文件但只更改一个字节然后取消映射，你会发现根本没有多少磁盘 I/O。

当然，如果您触摸文件中的每个字节，那么是的，它会在某个时间点全部加载，但不一定一次全部加载到物理 RAM 中。但即使您预先加载整个文件也是如此。如果没有足够的物理内存来容纳所有数据，操作系统将换出部分数据，以及系统中其他进程的数据。

内存映射的主要优点是:

您推迟阅读文件部分，直到需要它们(并且，如果它们从不需要，它们就不会被加载)。因此，在加载整个文件时没有大笔的前期成本。它摊销了装载成本。
写入是自动化的，您不必写出每个字节。只需关闭它，操作系统就会写出更改的部分。我认为当内存被换出时也会发生这种情况(在物理内存不足的情况下)，因为您的缓冲区只是文件的一个窗口。

请记住，您的地址空间使用量和物理内存使用量之间很可能存在脱节。您可以在只有 1G RAM 的 32 位机器中分配 4G 的地址空间(理想情况下，尽管可能存在操作系统、BIOS 或硬件限制)。操作系统处理与磁盘之间的分页。

并回答您的进一步澄清请求:

Just to clarify. So If I need the entire file, mmap will actually load the entire file?

是的，但它可能不会同时在物理内存中。操作系统会将位换回文件系统以引入新位。

但如果您手动读取了整个文件，它也会这样做。这两种情况的区别如下。

通过手动将文件读入内存，操作系统会将您的部分地址空间(可能包含数据，也可能不包含)交换到交换文件中。完成后，您将需要手动重写文件。

通过内存映射，您有效地告诉它使用原始文件作为额外的交换区域仅用于该文件/内存。而且，当数据写入那个交换区时，它会立即影响实际文件。因此，完成后无需手动重写任何内容，也不会影响正常的交换(通常)。

它实际上只是文件的一个窗口:

memory mapped file image

关于c++ - mmap问题，分配大量内存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/1972765/

25

4

0

文章推荐： python - 如何为 TensorFlow 变量赋值？

文章推荐： python - 带有用于 wxPython 或 Tkinter 的 GUI 设计器的漂亮 IDE

文章推荐： c++ - 为什么标准的 C++ 容器适配器不提供明确的功能？

mmap 用户调用与 mmap 内核调用之间的连接
我想了解 mmap 的工作原理。mmap 的用户级调用如下所示。 void *mmap(void *addr, size_t len, int prot, int flags, int
python - 如何将 mmap.mmap Python 对象转换为字符串？
我正在做一个Bottle驱动程序，我使用 yield 关键字和 mmap.mmap 对象在输出流中发送多个映射文件，如以下代码所示: for mapping in mappings: yield
Python，mmap，如果我不手动调用 mmap.close() 怎么办？
我来自 C++/RAII 世界。所以我对何时以及如何调用 mmap.close() 感到困惑[不是 file.close()]。或者，根本不调用它？会不会漏气？至于来自 document 的示例
c - mmap 和 valgrind，mmap 不会增加堆大小
我正在我的大学上操作系统类(class)，我们的任务之一是使用 mmap 实现简单的 malloc。现在我开始工作了，我尝试使用 valgrind 来检测遗留的任何错误。不管是否释放内存，valgri
linux - mmap(2) 与 mmap(3)
有谁知道 mmap(2) 和 mmap(3) 的区别是什么？手册第 3 节被描述为“本章描述了除第 2 章中描述的实现系统调用的库函数之外的所有库函数。” mmap(3) 不执行系统调用吗？阅读这两
python - mmap 多个文件 block 和缓存 mmap 对象 (Python)
我不知道我在理解mmap时错过了哪些知识。我就是想不通。但让我这样问我的问题: 我有很多(例如 3 个)文件 block ，其大小分别为 s1、s2、s3。 s1、s2 和 s3 均小于 Mmap (
c - 当 offset 递减传递给 mmap 时，mmap 调用失败
在 Linux 下: #free -m total used free shared buffers cachedMem:
python - 将 mmap 指针作为 mmap 对象从 C 传递给 python
我正在尝试将 C 库(beaglebone PRU 驱动程序 prussdrv.c)与 Python 连接。我想要访问的特定函数返回一个 mmap 指针，如下所示: int __prussdrv_me
c - 再次使用 mmap() ，重新使用以前的 mmap() 结果失败 - 使原始 ptr 无效？
当我调用mmap时: ptr = mmap(NULL, ...); 并要求系统提供一个缓冲区并将文件映射到其中，然后使用再次调用 mmap ptr2 = mmap(ptr, ...); 尝试
Java mmap 在 Android 上失败并显示 "mmap failed: ENOMEM (Out of memory)"
在 Android 上用 Java 内存映射一个大文件效果很好。但是当映射总数超过 ~1.5GB 时，即使有多个映射调用，它也会失败: mmap failed: ENOMEM (Out of memo
linux - 如何将 write() 优先于 mmap 更新(或延迟 mmap 页面缓存刷新)
我在具有 64G 内存和大量磁盘空间的 debian-64 上运行一个专门的数据库守护进程。它使用磁盘上的哈希表(mmaped)并通过定期 write() 调用将实际数据写入文件。当进行大量更新时，m
python - 为什么使用 Python mmap 模块比从 C++ 调用 POSIX mmap 慢得多？
C++代码: #include #include #include #include #include using namespace std; #define FILE_MODE (S_I
c - 对整个 4Kb block 使用 mmap() 是否可以，还是一次性对我的整个文件使用 mmap() 更好？
我想处理一个由 4Kb block 组成的文件。随着事情的发生，我将编写更多数据并映射新部分，取消映射我不再需要的部分。当要映射的文件数据总量约为 4Gb 时，仅 4Kb 的 map() 是否太小
python - 转换 mmap 对象(mmaps 不支持串联)/将 c 代码转换为 python
大家好，我正在尝试将下面的代码转换为 python(访问树莓派 1Mhz 计时器)，我不知道什么时候要映射对象，我们需要 + TIMER_OFFSET (timer = (long long int
c - 混合使用 mmap(2) 和 malloc(3) 的安全方法需要 : the result of mmap(2) must be continuous
我所做的是一个垃圾收集器，使用mmap(2)为用户空间分配空间，这就要求最初分配时可以从任何地方开始，但是后面的分配地址应该是与之前的分配连续，如下所示: page_size = getpagesiz
mmap() 内部结构
众所周知，最重要的 mmap() 功能是在许多进程之间共享文件映射。但众所周知，每个进程都有自己的地址空间。问题是内存映射文件(更具体地说，它的数据)真正保存在哪里，以及进程如何访问这些内存？我的
mmap - 内存映射文件可以有多大？
什么限制了内存映射文件的大小？我知道它不能大于未分配地址空间的最大连续块，并且应该有足够的可用磁盘空间。但是还有其他限制吗？最佳答案您太保守了:内存映射文件可能大于地址空间。查看内存映射文件的
mmap 大端与小端
如果我使用 mmap 来编写 uint32_t，我会遇到大端/小端约定的问题吗？特别是，如果我在 big-endian 机器上写入一些数据 mmap，当我尝试在 little-endian 机器上读取
c - 我如何从单个文件描述符分配多个 MMAP？
所以，对于我最后一年的项目，我使用 Video4Linux2 从相机中提取 YUV420 图像，将它们解析为 x264(本地使用这些图像)，然后通过 Live555 将编码流发送到 RTP/RTCP通
linux - mmap 是原子的吗？
是 mmap在它们的效果中调用原子？也就是说，是否由 mmap 进行了映射更改以原子方式出现在访问受影响区域的其他线程中？作为试金石，请考虑您执行 mmap 的情况。在一个全为零的文件中(来自线程

首页

博学

6Ren·AI

商城

c++ - mmap问题，分配大量内存