1s 创建100G文件，最快的方法是？-6ren

1s 创建100G文件，最快的方法是？

转载作者：知者更新时间：2024-03-13 02:29:37

在我们日常工作中，为了验证开发的功能，比如：文件上传功能或者算法的处理效率等，经常需要一些大文件进行测试，有时在四处找了一顿之后，发现竟然没有一个合适的，虽然 Linux 中也有一些命令比如：vim、touch 等可以创建文件，但是如果需要一个 100G 或者 1T 的大文件，这些命令就显得力不从心，此时就需要能快速创建大文件命令，接下来将介绍这些命令的常见用法、命令之间的差异、以及使用时如何选择

dd

dd 命令的语法如下

dd if=[source] of=[destination] bs=[block-size] count=[counter]

从 source 读取并拷贝内容到 destination， source 和 destination 都是文件，前者是读取的文件，后者是写入的文件

bs 表示块的大小，单位是字节，后缀中带了字母 B的换算单位都是 1000, 比如: 1KB = 1000 Bytes、 1MB = 1000 * 1000 Bytes、1GB = 1000 * 1000 * 1000 Bytes

后缀省略了字母 B的换算单位是 1024, 比如： 1K = 1024 Bytes、 1M = 1024 * 1024 Bytes、1G = 1024 * 1024 * 1024 Bytes

count 表示块的数量，表示 dd 命令需要执行多少次读取并写入的操作

bs 乘以 count 其实就表示目标文件的大小，也即需要创建的文件的大小，比如：下面的命令可以创建一个 10G 大小的文件

[root@localhost dd_cmd]# dd if=/dev/zero of=testfile bs=1G count=10
记录了10+0 的读入
记录了10+0 的写出
10737418240字节(11 GB)已复制，8.61643 秒，1.2 GB/秒
[root@localhost dd_cmd]# du -h testfile  
10G     testfile
[root@localhost dd_cmd]#

上面的命令表示从 /dev/zero文件每次读取 1G大小的数据并写入当前目录中的 testfile 文件， bs=1G count=10 表示块大小是1G，总共有10个块，所以目标文件最终的大小是: 1G * 10 = 10G

/dev/zero 是一个特殊的字符设备文件，当读取它的时候，它会返回空数据，这里表示从 /dev/zero读取空的数据写入 testfile 中

命令 du -h testfile 的结果也说明了 testfile 大小是 10G

从结果可以得知，用 dd 命令创建一个 10G 大小的文件花费了约 8.6 秒

yes

前面的 dd 命令创建的是空字符的文件，如果想文件中包含自定义的字符，可以使用 yes 命令，它的作用是循环输出一行指定的字符串，直到进程结束，为了控制文件的大小并打破循环，我们借助 head 命令来实现，使用 yes 命令创建包含指定内容文件的语法如下

yes [string] | head -c [size of file] > [name of file]

string 是写入文件每一行的字符串

head -c [size of file] 是接收指定大小的字符串，单位是字节，后面也可以接 K、KB、M、MB、G、GB等单位

下面的实例是往 yesfile 文件写入，每行的内容是: this is a test content , 一直到文件大小达到 10G

[root@localhost dd_cmd]# time yes "this is a test content" | head -c 10G > yesfile

real    0m11.266s
user    0m8.898s
sys     0m13.217s
[root@localhost dd_cmd]# du -h yesfile  
10G     yesfile

从结果可以看出，yes 命令创建一个 10G 的文件花费了 13.2 秒，比 dd 命令慢

fallocate

fallocate 命令使用下面的语法创建大文件

fallocate -l [size of file] [name of file]

-l 选项表示文件大小，单位是字节，后面可以接 K、KB、M、MB、G、GB等单位

下面的命令是创建一个 10G 大小的文件

[root@localhost dd_cmd]# time fallocate -l 10G allocatefile

real    0m0.002s
user    0m0.000s
sys     0m0.003s
[root@localhost dd_cmd]# du -h allocatefile  
10G     allocatefile

上述的 time 命令只是为了统计创建文件的时间，从结果可以看出:fallocate命令创建一个 10G 大小的文件竟然只花费了 0.003 秒

命令 du -h allocatefile 是查看创建的文件大小，从结果可知，allocatefile 文件大小确实是 10G

truncate

truncate 命令是缩小或者扩展文件至指定大小，它的语法如下：

truncate -s [file-size] [name of the file]

-s 选项表示文件大小，单位是字节，跟 fallocate 命令一样，后面可以接 K、KB、M、MB、G、GB等单位

下面是使用 truncate 命令创建一个 10G的文件的示例

[root@localhost dd_cmd]# time truncate -s 10G truncatefile

real    0m0.002s
user    0m0.000s
sys     0m0.002s
[root@localhost dd_cmd]# du -h truncatefile 
0       truncatefile

从结果可以得到，truncate 命令创建一个 10G的文件也只花费了 0.002 秒，和 fallocate 差不多

但是, du -h truncatefile 命令的结果表明 truncatefile 大小为 0

原因是 truncate 命令创建的是一个稀疏文件而不是实际的文件，稀疏文件不会占用磁盘空间

注意：fallocate 命令只支持 btrfs、ext4、 ocfs2、xfs 这几种文件系统，而 truncate 命令支持所有的现代文件系统

创建速度的差异

从上面的几个实例可以看出，同样是创建一个 10G的文件， fallocate 和 truncate 命令只需要不到 0.1 秒的时间，但是 dd 命令需要 8.6 秒的时间，yes 命令需要 13.2 秒，这中间相差了几百倍，为什么会有这么大的差别呢？

fallocate 将空间分配给文件，但是不会往文件中写入任何数据

truncate 创建的是稀疏文件，和 fallocate 一样，它也不会往文件中写入任何数据

dd 和 yes 都有写文件操作，而这需要大量的 IO 时间，所以同样创建 10G 的文件，它们比 fallocate 和 truncate 要慢很多

如何选择

dd 、yes、fallocate、truncate 这几个命令都可以创建大文件, 在日常的使用中，我们该如何选择呢 ?

对速度没有很高的要求的情况下，一般首选 dd ，如果希望创建的文件中写入自定义的内容的话，使用 yes

如果想快速的创建大文件，比如 1 秒内创建一个 100G 的文件，选择 fallocate 和 truncate ，如果还需要确保文件是实际占用磁盘空间的话，就只剩下 fallocate 可选了

大部分情况下，fallocate 都能满足要求，所以不想仔细分析的话，使用 fallocate 就行了

小结

本文介绍了Linux下创建大文件的几种方法，并对所提供的方法进行了比较，最后提供了如何选择使用哪种方法的一些建议，文中只对 dd 、yes、fallocate、truncate 命令做了简要的说明，更多的介绍请参考 man 文档

文章推荐： JavaScript while 和 do...while 循环

文章推荐：设计模式学习笔记（二十）状态模式及其实现

文章推荐：图像修复学习笔记

文章推荐： MongoDB—— MongoDB介绍

g++ - 如何构建 g++
我目前正在尝试让 g++ 工作，并查看 http://gcc.gnu.org/install/build.html ，我似乎找不到它在哪里说如何“执行编译器的 3 阶段 bootstrap ”。我在哪
Python:理解(None for g in g if (yield from g) and False)
James Powell 在他对即将举行的演示文稿的简短描述中说，他自豪地发明了最粗糙的 Python 单行代码之一: (None for g in g if (yield from g) and F
graph-theory - 证明如果 G 的深度优先搜索树等于 G 的广度优先搜索树则 G 是树
请告诉我我的证明是否正确 We have a connected graph, and specific vertex u in V(G). Suppose we compute the dfs tr
powershell - PowerShell “$g = $json | ConvertFrom-Json | Group State”结果与 “$g = $json | ConvertFrom-Json ; $g = $g | Group State ;”不同
下面的test2和test3结果是不同的。我对此感到困惑，因为它看起来像相同的逻辑，并且与linux bash ||逻辑不同。 $data = @( [PSCustomObject]@{St
g-code - 寻找 G Code 语法规范，尝试制作简单的 G Code 解析器
我试图找到一个明确的 G 代码语法规范，而不是单个 G 代码的含义，我无处不在的规范，我的意思是详细的语法规范，目的是编写解析器。我编写解析器没有问题，我只是在寻找语法规范，例如。我知道您不必总是为
css - 为 g 推荐别的东西为 g 推荐别的东西为 g 推荐别的东西
我写了这个 mixin，但它循环了很多时间。你能帮我优化我的代码吗？或者你能建议一些其他的东西来获得想要的结果吗？ dfgdfgsdfgsdf 最佳答案希望这就是您要找的。 $spaces: (4,
g++ - 强制 g++ 为未使用的函数生成代码
默认情况下，g++ 似乎会省略未使用的类内定义方法的代码。示例 from my previous question : struct Foo { void bar() {} void baz(
g++ - 在 g++ 中管道文件内容进行编译
是否可以将文件内容通过管道传送到 g++编译程序？我想这样做是因为我想使用数据库中的文件而不是磁盘上的物理文件。可以通过我制作的 API 轻松检索文件内容。例如，我想做这样的事情: g++ con
g++ - 使用 g++ 进行分析
如何profile c++代码获取每行代码的调用次数和消耗时间，就像profile工具一样在 Matlab 中呢？我尝试使用-fprofile-arcs之类的东西，但它只生成代码覆盖率报告，其中可以
g++ - 如何通过几行代码禁用 g++ 中的所有警告
如何在几行代码上禁用所有警告。可以使用 GCC 诊断功能禁用特定警告，但是否有针对所有警告的标志。我尝试了这个方法，但不起作用 #pragma GCC diagnostic push #pragma
g++ - 修复共享库 g++ 上的断开链接
我有一个链接到 opencv 2.2 的可执行文件。但是，我删除了 opencv 2.2 并安装了 opencv 2.3。问题是，有没有办法在不重新编译整个源代码的情况下将这个可执行文件链接到新的共
g++ - 是否可以在 g++ 中启用数组边界检查？
在编译带有一些标志的以下文件时，是否可以让 g++ 显示错误？ #include using namespace std; int main() { int arr[ 2 ]; cout
haskell - 找到 Haskell 函数 f, g 使得 f g = f 。 G
在学习 Haskell 时，我遇到了一个挑战，要找到两个函数 f 和 g，例如 f g 和 f 。 g 是等价的(并且是总计，因此像 f = undefined 或 f = (.) f 这样的东西不算
algorithm - 如何证明 Θ(g(n)) = O(g(n)) ∩ Ω(g(n))
根据我的理解，Theta 位于 Big O 和 Omega 之间，但我看到了这个声明，但我无法理解为什么交集会出现在这里。我能否对 Θ(g(n)) = O(g(n)) ∩ Ω(g(n)) 获得数学和分
c - 递归函数到迭代，该函数给定 g(n) = 2*g(n-1)+3*g(n-2)
我需要为这个递归函数编写一个迭代函数。 int funcRec(int n){ if(n>1) { return 2*funcRec(n - 1) + 3*funcRec(n
c++ - g++、clang++、使用 libboost 的编译花絮——当 g++7 成功时，g++8 编译失败；
我在 github repository 上有代码示例并在 travis-ci 上创建了一个构建便于复制。最小的、完整的和可验证的例子可能不是最小的，但我相信它足够小它使用 boost.inte
haskell - f, g, h::Kleisli ((->) e) a b <=> f >>> (g &&& h) = (f >>> g) &&& (f >>> h)？
编辑:我们将调用箭头 p纯如果存在这样的函数f即:p = arr f . 我试图更好地掌握 Haskell 中的 Arrows，我想弄清楚什么时候 f >>> (g &&& h) = (f >>> g
Scalaz monad 转换器。将 f1 :A => G[B], f2:B => G[C] 函数应用于 F[G[A]] 对象
我有两个(或更多)函数定义为: val functionM: String => Option[Int] = s => Some(s.length) val functionM2: Int => Op
algorithm - 在渐近符号中，给定 g(n)，O(g(n)) 和 Ω(g(n)) 的并集是所有函数的通用集 U 吗？
好像是的。任何直观或严肃的证据都值得赞赏。最佳答案没有。我认为您的问题等同于:给定函数 f 和 g，f 是 O(g) 或 g 是 O(f) 是否总是正确的？这在 SE Computer Scie
algorithm - 如果 f(n) = o(g(n))，g(n) + f(n)=Θ(g(n)) 吗？
如果我设法证明 f(n) = o(g(n))(小 o)，那么这两个函数的总和 f( n) + g(n) 应该被“更大”的函数 g(n) 紧紧束缚。然而，我在证明这一点时遇到了一些麻烦。最佳答案以

知者

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城