gpt4 book ai didi

linux - 读取大文件时如何选择 block 大小?

转载 作者:行者123 更新时间:2023-12-03 03:26:26 25 4
gpt4 key购买 nike

我知道读取 block 大小是文件系统 block 大小倍数的文件会更好。

1)为什么会这样?我的意思是,假设 block 大小为 8kb,而我读取了 9kb。这意味着它必须获取 12kb,然后去掉另外的 3kb。是的,它确实做了一些额外的工作,但是除非你的 block 大小真的很大,否则这会有很大的不同吗?

我的意思是,如果我正在读取 1tb 文件,这肯定会产生影响。

我能想到的另一个原因是 block 大小是指硬盘上的一组扇区(请纠正我)。所以它可能指向 8、16、32 或者只是一个扇区。那么如果该 block 指向更多扇区,您的硬盘本质上就必须做更多工作?我说得对吗?

2) 假设 block 大小为 8kb。我现在一次读取 16kb 吗? 1MB? 1GB?我应该使用什么作为 block 大小?我知道可用内存是一个限制,但除此之外还有哪些其他因素影响我的选择?

提前非常感谢您的所有回答。

最佳答案

理论上,当缓冲区处于空闲状态时,可能会出现最快的 I/O页对齐,并且当其大小是系统 block 的倍数时尺寸。

如果文件连续存储在硬盘上,最快的I/O吞吐量可以通过逐个柱面读取来获得。 (那里甚至可能没有任何延迟,因为当你读取整个轨道时你不需要从头开始,你可以从中间开始,并循环)。不幸的是,现在几乎不可能这样做,因为硬盘固件隐藏了物理布局扇区,并且可以使用需要甚至寻找的替换扇区读取单个轨道。操作系统文件系统也可能尝试传播文件 block 遍布整个磁盘(或者至少遍布整个柱面)组),以避免在时对大文件进行长时间查找访问小文件。

因此,您可以尝试考虑物理轨道,而不是考虑考虑硬盘缓冲区大小。大多数硬盘的缓冲区大小为8 MB,一些 16 MB。因此以最大 1 MB 或 2 MB 的 block 读取文件应该让硬盘固件优化吞吐量而无需停止它的缓冲区。

但是,如果上面有很多层,例如 RAID,那么所有的赌注都是关闭。

实际上,您能做的最好的事情就是对您的特定进行基准测试情况。

关于linux - 读取大文件时如何选择 block 大小?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49852060/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com