gpt4 book ai didi

使用 O_DIRECT 一致写入许多 block

转载 作者:塔克拉玛干 更新时间:2023-11-03 01:42:10 27 4
gpt4 key购买 nike

我正在为 Linux 开发一个数据库引擎,我对通过对内核的一次系统调用写入多个 block 的一致性有疑问。我用 O_DIRECT 打开设备。

设备以 block 为单位写入数据,具体取决于硬件,它可能是 512,2048 或 4096。假设我将在一个系统调用中写入 2 个 512 字节的 block 。如果系统恰好在磁盘写入 1 个 block 后关闭,会发生什么情况?在正常操作期间,write() 系统调用将返回写入数据的大小,因此当 2 个值(询问值与返回值)不匹配时,我可以比较并生成错误,但随着电源关闭,它变得复杂。它甚至更复杂,因为内核可能不按照您告诉它的顺序向设备发送写入请求,因此请求的尾部可能在头部之前写入,然后您关闭电源。

考虑数据库引擎写入事务日志。假设一个事务大约是 4096 字节,引擎将需要写入 8 个 512 字节的 block 。突然我们断电了,只写了一半的请求。数据库如何处理这些问题?我想要解决这个问题,您首先需要将您打算写入的 block 数量写入磁盘上的另一个位置。一旦收到正确的返回值,您就可以写入数据。然后,在收到确认后,您必须发送另一次写入磁盘更新信息,即您要写入的所有 block 实际上都已成功写入。因此,这将需要 3 次写入操作,如果内核正在从另一个进程写入磁盘,这很可能会导致 3 次查找。效率太低了。

我正在寻找一种方法,只需对磁盘执行一次写入操作即可实现对多个 block 的一致写入。 (一个 write() 系统调用)这可能吗?

最佳答案

Modulo some speed hacks,你描述的两次写入行为正是数据库所做的。它叫做write-ahead logging ,它涉及按操作顺序写入的单个缓冲区,偶尔将内存缓冲区刷新到磁盘,并将相应的刷新条目写入日志。然后,当数据库系统开始运行时,它会检查日志中是否有可能尚未刷新到磁盘的条目,并将这些值刷新到磁盘(因为条目在日志中)。

这实际上比立即写入数据性能更高。日志是一个顺序文件,因此向其添加数据不需要查找,只需要旋转延迟。此外,您不必立即将数据写入实际数据文件,因为您始终可以从日志中恢复它。然后,当没有任何请求进入时,您将数据刷新到磁盘并将刷新条目写入日志。这样,DBMS 寻找的唯一时间是 1) 当系统安静时和 2) 当 DMBS 用完内存来保存修改后的数据时。只要您的机器中有足够的内存,磁盘就根本不会有太多寻道,而且这些寻道发生在 DBMS 不忙的时候。

关于使用 O_DIRECT 一致写入许多 block ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9137480/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com