gpt4 book ai didi

使用 copy_file_range 进行复制加速

转载 作者:太空宇宙 更新时间:2023-11-04 07:50:15 26 4
gpt4 key购买 nike

我正在学习 Linux 中两个文件描述符之间的内核数据传输,遇到了一些我无法理解的事情。这是来自 copy_file_range 的引述手册页

copy_file_range() gives filesystems an opportunity to implement "copy acceleration" techniques, such as the use of reflinks (i.e., two or more i-nodes that share pointers to the same copy-on-write disk blocks) or server-side-copy

我曾经认为 inode 是由 stat/statx 系统调用返回的东西。 st_ino 类型是 typedefed here作为

typedef unsigned long   __kernel_ulong_t;

那么,“共享指向相同写时复制磁盘 block 的指针的两个或多个 inode ”是什么意思?

最佳答案

根据我的理解,copy_file_range 不需要通过用户模式传递数据意味着内核根本不需要从磁盘加载数据(它仍然可能但它不是必须的)并且这允许通过将操作下推到文件系统堆栈来进一步优化。这涵盖了通过 NFS 进行服务器端复制的情况。

关于其他优化的实际答案从介绍文件的存储方式开始,如果您已经知道可以跳过它。

文件在典型的 Linux FS 中的存储方式分为 3 层:

  1. 某个目录中的文件条目(它本身就是一个包含此类条目列表的文件)。这样的条目本质上是将文件名映射到某个 inode。这是通过存储 inode 编号又名 st_ino 来完成的,它实际上是指向某个表中 inode 的指针。

  2. inode包含一些共享的(详见)元数据(如 stat 返回的元数据)和一些指向存储实际文件内容的数据 block 的指针。

  3. 实际数据 block

例如,硬链接(hard link)是某个目录中的一条记录,它指向与“原始”文件相同的 inode(并递增 inode 内的“链接计数器”)。这意味着只有文件名(可能还有目录)不同,所有其他数据和元数据都在硬链接(hard link)之间共享。请注意,创建硬链接(hard link)是复制文件的一种非常快速的方法。唯一的缺点是这两个文件现在必须永远共享它们的内容,所以这不是真正的副本。但是如果我们使用一些 copy-on-write修复“写入”部分的方法,它会很好用。这是一些 FS(例如 Btrfs)通过 reflinks 支持的。

这种写时复制技巧的想法是,您可以使用新的适当元数据创建一个新的 inode,但仍然共享相同的数据 block 。您还可以在 inode 元数据的“不可见”部分中的两个 inode 之间添加交叉引用,以便它们知道它们共享数据 block 。显然,与真正的复制相比,这个操作是非常快的。同样,只要文件只被读取,一切都会完美无缺。但与硬链接(hard link)不同的是,我们也可以处理将它们视为独立的写入。当执行某些写入时,FS 检查文件(或者更确切地说是 inode)是否真的是数据 block 的唯一所有者,否则在写入之前复制数据。根据 FS 实现,它可以在第一次写入时复制整个文件,或者它可以存储一些更详细的元数据,只复制必须修改的 block ,并在文件之间共享其余部分。在后一种情况下,如果写入大小超过一个 block ,则可能根本不需要复制 block 。

所以 copy_file_range() 可以做的最简单的技巧是检查整个文件是否真的被复制,如果是,执行上面描述的 reflink 技巧(显然如果 FS 支持它)。

如果 FS 支持数据 block 上更详细的元数据,一些更高级的优化也是可能的。假设您将文件开头的前 N ​​个字节复制到一个新文件中。然后 FS 可以只共享起始 block ,可能只需要复制最后一个没有完全复制的 block 。

关于使用 copy_file_range 进行复制加速,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54302260/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com