Java IO篇：什么是零拷贝？-6ren

Java IO篇：什么是零拷贝？

转载作者：知者更新时间：2024-03-13 09:19:55

一、传统的IO模式：

（1）用户空间的应用程序发出read系统调用，会导致用户空间到内核空间的上下文切换，然后再通过 DMA 将磁盘文件中的数据读取到内核空间缓冲区
（2）接着将内核空间缓冲区的数据拷贝到用户空间的数据缓冲区，然后read系统调用返回，而系统调用的返回又会导致一次内核空间到用户空间的上下文切换
（3）write系统调用，用户空间到内核空间的上下文再次切换；接着将用户空间缓冲区的数据复制到内核空间的 socket 缓冲区（也是内核缓冲区，只不过是给socket使用），然后write系统调用返回，再次触发上下文切换
（4）最后异步传输socket缓冲区的数据到网卡，也就是说write系统调用的返回并不保证数据被传输到网卡

在传统的数据 IO 模式中，读取一个磁盘文件，并发送到远程端的服务，就共有四次用户空间与内核空间的上下文切换，四次数据复制，分别是两次 CPU 数据复制，两次 DMA 数据复制。但两次 CPU 数据复制才是最消耗资源和时间的，这个过程还需要内核态和用户态之间的来回切换，而CPU资源十分宝贵，要拷贝大量的数据，还要处理大量的任务，如果能把 CPU 的这两次拷贝给去除掉，既能节省CPU资源，还可以避免内核态和用户态之间的切换。而零拷贝技术就是为了解决这个问题
DMA（Direct Memory Access，直接存储器存取）方式：外部设备不通过CPU而直接与系统内存进行数据交换的技术

二、什么是零拷贝：

零拷贝指在进行数据 IO 或传输时，数据在用户态下经历了零次拷贝，并非不拷贝数据。通过减少数据传输过程中内核缓冲区和用户进程缓冲区间不必要的 CPU数据拷贝与用户态和内核态的上下文切换次数，降低 CPU 在这两方面的开销，释放 CPU 执行其他任务，更有效的利用系统资源，提高传输效率，同时还减少了内存的占用，也提升应用程序的性能。

由于零拷贝在内核空间中完成所有的内存拷贝，可以最大化使用 socket 缓冲区的可用空间，从而提高了一次系统调用中处理的数据量，进一步降低了上下文切换次数。零拷贝技术基于 PageCache，而 PageCache 缓存了最近访问过的数据，提升了访问缓存数据的性能，同时，为了解决机械磁盘寻址慢的问题，它还协助 IO 调度算法实现了 IO 合并与预读（这也是顺序读比随机读性能好的原因），这进一步提升了零拷贝的性能。

三、Linux 中的零拷贝方式：

1、mmap + write 实现的零拷贝：

#include <sys/mman.h>
void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset)

在传统 IO 模式的4次内存拷贝中，与物理设备相关的2次拷贝（把磁盘内容拷贝到内存以及把内存拷贝到网卡）是必不可少的。但与用户缓冲区相关的2次拷贝都不是必需的，如果内核在读取文件后，直接把内核缓冲区中的内容拷贝到 Socket 缓冲区，待到网卡发送完毕后，再通知进程，这样就可以减少一次 CPU 数据拷贝了。而内存映射 mmap就是通过前面介绍的方式实现零拷贝的，它的核心就是操作系统会把内核缓冲区与应用程序共享，可以将一段用户空间内存映射到内核空间，当映射成功后，用户对这段内存区域的修改可以直接反映到内核空间；同样地，内核空间对这段区域的修改也直接反映用户空间。正因为有这样的映射关系, 就不需要在用户态(User-space)与内核态(Kernel-space) 之间拷贝数据，提高了数据传输的效率，这就是内存直接映射技术。具体示意图如下：

（1）发出 mmap 系统调用，导致用户空间到内核空间的上下文切换；然后通过 DMA 将磁盘文件中的数据复制到内核空间缓冲区
（2）mmap 系统调用返回，导致内核空间到用户空间的上下文切换
（3）这里不需要将数据从内核空间复制到用户空间，因为用户空间和内核空间共享了这个缓冲区
（4）发出 write 系统调用，导致用户空间到内核空间的上下文切换。将数据从内核空间缓冲区复制到内核空间 socket 缓冲区；write 系统调用返回，导致内核空间到用户空间的上下文切换
（5）DMA 异步将 socket 缓冲区中的数据拷贝到网卡

** mmap 的零拷贝 I/O 进行了4次用户空间与内核空间的上下文切换，以及3次数据拷贝；其中3次数据拷贝中包括了2次 DMA 拷贝和1次 CPU 拷贝**

2、sendfile 实现的零拷贝：

#include <sys/sendfile.h>
ssize_t sendfile(int out_fd, int in_fd, off_t *offset, size_t count);

只要我们的代码执行 read 或者 write 这样的系统调用，一定会发生 2 次上下文切换：首先从用户态切换到内核态，当内核执行完任务后，再切换回用户态交由进程代码执行。因此，如果想减少上下文切换次数，就一定要减少系统调用的次数，解决方案就是把 read、write 两次系统调用合并成一次，在内核中完成磁盘与网卡的数据交换。在 Linux 2.1 版本内核开始引入的 sendfile 就是通过这种方式来实现零拷贝的，具体流程图如下：

（1）发出 sendfile 系统调用，导致用户空间到内核空间的上下文切换；然后通过 DMA 将磁盘文件中的内容复制到内核空间缓冲区中，
（2）接着再将数据从内核空间缓冲区复制到 socket 缓冲区
（3）sendfile 系统调用返回，导致内核空间到用户空间的上下文切换
（4）DMA 异步将内核空间 socket 缓冲区中的数据传递到网

** 通过 sendfile 实现的零拷贝I/O使用了2次用户空间与内核空间的上下文切换，以及3次数据的拷贝。其中3次数据拷贝中包括了2次DMA拷贝和1次CPU拷贝**

3、带有 DMA 收集拷贝功能的 sendfile 实现的零拷贝：

Linux 2.4 版本开始支持，操作系统提供 scatter 和 gather 的 SG-DMA 方式，直接从内核空间缓冲区中将数据读取到网卡，无需将内核空间缓冲区的数据再复制一份到 socket 缓冲区。

（1）发出 sendfile 系统调用，导致用户空间到内核空间的上下文切换；接着通过 DMA 将磁盘文件中的内容复制到内核空间缓冲区
（2）这里没把数据复制到 socket 缓冲区，而是将相应的描述符信息被复制到 socket 缓冲区，该描述符包含了两种的信息：①内核缓冲区的内存地址、②内核缓冲区的偏移量
（3）sendfile 系统调用返回，导致内核空间到用户空间的上下文切换。
（4）DMA 根据 socket 缓冲区中描述符提供的地址和偏移量直接将内核缓冲区中的数据复制到网卡

** 带有 DMA 收集拷贝功能的 sendfile 实现的 I/O 使用了2次用户空间与内核空间的上下文切换，以及2次数据的拷贝，而且这2次的数据拷贝都是非CPU拷贝，这样就实现了最理想的零拷贝I/O传输了，不需要任何一次的CPU拷贝，以及最少的上下文切换**
备注：需要注意的是，零拷贝有一个缺点，就是不允许进程对文件内容作一些加工再发送，比如数据压缩后再发送。

四、零拷贝技术的应用场景：

1、Java 的 NIO：

（1）mmap + write 的零拷贝方式：

FileChannel 的 map() 方法产生的 MappedByteBuffer：FileChannel 提供了 map() 方法，该方法可以在一个打开的文件和 MappedByteBuffer 之间建立一个虚拟内存映射，MappedByteBuffer 继承于 ByteBuffer；该缓冲器的内存是一个文件的内存映射区域。map() 方法底层是通过 mmap 实现的，因此将文件内存从磁盘读取到内核缓冲区后，用户空间和内核空间共享该缓冲区。

（2）sendfile 的零拷贝方式：

FileChannel 的 transferTo、transferFrom 如果操作系统底层支持的话，transferTo、transferFrom也会使用 sendfile 零拷贝技术来实现数据的传输

2、Netty 框架：

Netty 的零拷贝主要体现在下面五个方面：

（1）在网络通信上，Netty 的接收和发送 ByteBuffer 采用直接内存，使用堆外直接内存进行 Socket 读写，不需要进行字节缓冲区的二次拷贝。如果使用传统的堆内存进行 Socket 读写，JVM 会将堆内存 Buffer 拷贝一份到直接内存中（为什么拷贝？因为 JVM 会发生 GC 垃圾回收，数据的内存地址会发生变化，直接将堆内的内存地址传给内核，内存地址一旦变了就内核读不到数据了），然后才写入 Socket 中。相比于堆外直接内存，消息在发送过程中多了一次缓冲区的内存拷贝。

（2）在文件传输上，Netty 的通过 FileRegion 包装的 FileChannel.tranferTo 实现文件传输，它可以直接将文件缓冲区的数据发送到目标 Channel，避免了传统通过循环 write 方式导致的内存拷贝问题。

（3）在缓存操作上，Netty 提供了CompositeByteBuf 类，它可以将多个 ByteBuf 合并为一个逻辑上的 ByteBuf，避免了各个 ByteBuf 之间的拷贝。

（4）通过 wrap 操作，我们可以将byte[]数组、ByteBuf、ByteBuffer等包装成一个Netty ByteBuf对象，进而避免了拷贝操作。

（5）ByteBuf 支持 slice 操作，因此可以将 ByteBuf 分解为多个共享同一个存储区域的 ByteBuf，避免了内存的拷贝。

3、kafka：

Kafka 的索引文件使用的是 mmap + write 方式，数据文件使用的是 sendfile 方式

参考文章：

https://juejin.cn/post/6854573213452599310#heading-8

https://blog.csdn.net/u022812849/article/details/109805403

文章推荐： CSS 基础语法

文章推荐：简单认识 cookie

文章推荐：面试官：聊聊索引失效？失效的原因是什么？

两个派生类的 C++ 拷贝
我有一个基类和两个派生类，我需要将一个指向派生类对象的指针复制到另一个类中，就像示例一样。 class Base { public: Base(const Base& other); } cl
具有抽象类指针的对象的 C++ 拷贝
考虑 Container 类，它主要存储 Box 对象的 unique_ptr vector ，并可以对它们执行一些计算。 class Container { private: std::
Python中使用copy模块实现列表(list)拷贝
引用是指保存的值为对象的地址。在 Python 语言中，一个变量保存的值除了基本类型保存的是值外，其它都是引用，因此对于它们的使用就需要小心一些。下面举个例子：问题描述：已知一个列表，求生成一个
C++ 遍历 vector 拷贝
我正在尝试实现 Bron-Kerbosch 算法，这是一种用于查找派系的递归算法。我设法达到了一个点，它返回了正确数量的派系，但是当我打印它们时，它们不正确 - 添加了额外的节点。我在这里遗漏了什么明
c++ - 使用具有未定义行为的(STL)拷贝？
在评估中，我选择了选项LINE I 上的运行时错误。没有未定义行为这样的选项，尽管我认为这是正确的选择。我不确定，但我认为评估有误。我编译并运行了该程序，它确实打印了 3, 9, 0, 2, 1,
c++ - 通过 const 拷贝
在函数签名中通过 const 值传递参数是否有任何好处(或相反，成本)？所以: void foo( size_t nValue ) { // ... 对比 void foo( const s
c++ - 为什么我的自定义迭代器不能使用 STL 拷贝？
我为 answer to another question 写了一个 OutputIterator .在这里: #include using namespace std; template clas
c++ - 在同一进程中加载多个 dll 拷贝
我有一个由第三方生成的 dll，它具有某种内部数据结构，将其大小限制为 X 个元素。所以基本上，它有一个以 X 为限制的队列。据我所知，DLL 是每个进程的，但是是否可以多次加载 DLL？也许每个
c++ - 如何返回包含不在集合中的元素的 vector 拷贝？
假设我有以下两个数据结构: std::vector all_items; std::set bad_items; all_items vector 包含所有已知项和 bad_items vector
iphone - 如何复制(拷贝)一个 CIImage
如何在不渲染 CGImage 的情况下从另一个 CIImage 复制一个 CIImage 最佳答案 CIImage *copiedImage = [originalImage copy]; 正如您在
C++ Qt 如何创建具有小改动的 GUI 拷贝
我有一个名为 UINode 的 GUI，我想创建一个拷贝并只更改一些内容。该项目由 3 个基本线程组成。 PingThread、RosThread 和 GuiThread。我试图复制粘贴项目文件夹并将
c++ - Qt5 duplicate(拷贝)一个可执行文件
Qt 新手。如果这个问题太幼稚，请多多包涵。在 Windows 操作系统环境中，我有 Qt 对话框框架应用程序，它具有“重复”- 按钮。在同一目录中，有 Qt 应用程序 - (一个带有关闭按钮的对话框
c++ - 创建自定义“字符串”(结构)拷贝
我正在尝试创建一个函数来复制我的卡片结构。我只需复制 cvalue 即可轻松开始。然而，我的 cvalue 没有复制，当应该读取 1000 时它仍然读取 5。 #include #include
c++ - 正在制作多少 std::string 拷贝？
string str1("someString"); string str2 = string(str1);//how many copies are made here //copy2 =
c++ - boost::bind 内部拷贝/拷贝？
我希望了解 boost::bind 执行何种函数对象的内部拷贝。由于这些对象的构造函数似乎没有被调用，我推测这是一种“非常浅的复制”，所以我引入了动态内存分配来产生一些错误。但是，下面代码的运行时输出
c++ - 复制构造函数首先复制指针，然后取消引用它以获得 "deep"拷贝
我正在查看 http://isocpp.github.io/CppCoreGuidelines/CppCoreGuidelines#c22-make-default-operations-consis
c++ - cv::Point3f 赋值运算符是否执行 "deep"拷贝？
下面的类方法Augmented3dPoint::getWorldPoint()返回对其成员的引用 cv::Point3f world_point; class Augmented3dPoint { p
c++ - 在 C++ 中避免 lambda 拷贝
我需要通过 MyClass2 将用户定义的 lambda 传递给 MyClass1。我想确保只有一步，没有拷贝。下面的代码实现了吗？有没有更好的方法来做到这一点(比如使用编译器完成的隐式移动)？注意
c++ - 是否可以指示编译器删除 C++ 中返回的 variant_t 拷贝？
在我的数据库访问代码中，我想写一个方法: variant_t GetQueryRows (...) 我想这样调用它: const variant_t result = GetQueryRows (..
c++ - 只制作 const 对象的 const 拷贝
我有一个包含引用的类，例如: class A { A(B &b) : b(b) {} // constructor B &b; } 有时b必须是只读的，有时是可写的。当我创建一个 const A

知者

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城