- 使用 Spring Initializr 创建 Spring Boot 应用程序
- 在Spring Boot中配置Cassandra
- 在 Spring Boot 上配置 Tomcat 连接池
- 将Camel消息路由到嵌入WildFly的Artemis上
在我们日常工作中,为了验证开发的功能,比如:文件上传功能或者算法的处理效率等,经常需要一些大文件进行测试,有时在四处找了一顿之后,发现竟然没有一个合适的,虽然 Linux 中也有一些命令比如:vim、touch
等可以创建文件,但是如果需要一个 100G 或者 1T 的大文件,这些命令就显得力不从心,此时就需要能快速创建大文件命令,接下来将介绍这些命令的常见用法、命令之间的差异、以及使用时如何选择
dd
命令的语法如下
dd if=[source] of=[destination] bs=[block-size] count=[counter]
从 source
读取并拷贝内容到 destination
, source
和 destination
都是文件,前者是读取的文件,后者是写入的文件
bs
表示块的大小,单位是字节,后缀中带了字母 B
的换算单位都是 1000
, 比如: 1KB = 1000 Bytes
、 1MB = 1000 * 1000 Bytes
、1GB = 1000 * 1000 * 1000 Bytes
后缀省略了字母 B
的换算单位是 1024
, 比如: 1K = 1024 Bytes
、 1M = 1024 * 1024 Bytes
、1G = 1024 * 1024 * 1024 Bytes
count
表示块的数量,表示 dd
命令需要执行多少次读取并写入的操作
bs
乘以 count
其实就表示目标文件的大小,也即需要创建的文件的大小,比如:下面的命令可以创建一个 10G 大小的文件
[root@localhost dd_cmd]# dd if=/dev/zero of=testfile bs=1G count=10
记录了10+0 的读入
记录了10+0 的写出
10737418240字节(11 GB)已复制,8.61643 秒,1.2 GB/秒
[root@localhost dd_cmd]# du -h testfile
10G testfile
[root@localhost dd_cmd]#
上面的命令表示从 /dev/zero
文件每次读取 1G
大小的数据并写入当前目录中的 testfile
文件, bs=1G count=10 表示块大小是1G
,总共有10个块, 所以目标文件最终的大小是: 1G * 10 = 10G
/dev/zero
是一个特殊的字符设备文件,当读取它的时候,它会返回空数据,这里表示从 /dev/zero
读取空的数据写入 testfile
中
命令 du -h testfile
的结果也说明了 testfile
大小是 10G
从结果可以得知,用 dd
命令创建一个 10G
大小的文件花费了约 8.6 秒
前面的 dd
命令创建的是空字符的文件,如果想文件中包含自定义的字符,可以使用 yes
命令,它的作用是循环输出一行指定的字符串,直到进程结束,为了控制文件的大小并打破循环,我们借助 head
命令来实现,使用 yes
命令创建包含指定内容文件的语法如下
yes [string] | head -c [size of file] > [name of file]
string
是写入文件每一行的字符串
head -c [size of file]
是接收指定大小的字符串,单位是字节,后面也可以接 K
、KB
、M
、MB
、G
、GB
等单位
下面的实例是往 yesfile
文件写入,每行的内容是: this is a test content
, 一直到文件大小达到 10G
[root@localhost dd_cmd]# time yes "this is a test content" | head -c 10G > yesfile
real 0m11.266s
user 0m8.898s
sys 0m13.217s
[root@localhost dd_cmd]# du -h yesfile
10G yesfile
从结果可以看出,yes
命令创建一个 10G
的文件花费了 13.2 秒,比 dd
命令慢
fallocate
命令使用下面的语法 创建大文件
fallocate -l [size of file] [name of file]
-l
选项表示文件大小,单位是字节,后面可以接 K
、KB
、M
、MB
、G
、GB
等单位
下面的命令是创建一个 10G
大小的文件
[root@localhost dd_cmd]# time fallocate -l 10G allocatefile
real 0m0.002s
user 0m0.000s
sys 0m0.003s
[root@localhost dd_cmd]# du -h allocatefile
10G allocatefile
上述的 time
命令只是为了统计创建文件的时间,从结果可以看出:fallocate
命令创建一个 10G
大小的文件竟然只花费了 0.003 秒
命令 du -h allocatefile
是查看创建的文件大小,从结果可知,allocatefile
文件大小确实是 10G
truncate
命令是缩小或者扩展文件至指定大小,它的语法如下:
truncate -s [file-size] [name of the file]
-s
选项表示文件大小,单位是字节,跟 fallocate
命令一样,后面可以接 K
、KB
、M
、MB
、G
、GB
等单位
下面是使用 truncate
命令创建一个 10G
的文件的示例
[root@localhost dd_cmd]# time truncate -s 10G truncatefile
real 0m0.002s
user 0m0.000s
sys 0m0.002s
[root@localhost dd_cmd]# du -h truncatefile
0 truncatefile
从结果可以得到,truncate
命令 创建一个 10G
的文件也只花费了 0.002 秒,和 fallocate
差不多
但是, du -h truncatefile
命令的结果表明 truncatefile
大小为 0
原因是 truncate 命令 创建的是一个稀疏文件而不是实际的文件 ,稀疏文件不会占用磁盘空间
注意:fallocate
命令只支持 btrfs、ext4、 ocfs2、xfs
这几种文件系统,而 truncate
命令支持所有的现代文件系统
从上面的几个实例可以看出,同样是创建一个 10G
的文件, fallocate
和 truncate
命令只需要不到 0.1 秒的时间,但是 dd
命令需要 8.6 秒的时间,yes
命令需要 13.2 秒,这中间相差了几百倍,为什么会有这么大的差别呢?
fallocate
将空间分配给文件,但是不会往文件中写入任何数据
truncate
创建的是稀疏文件,和 fallocate
一样,它也不会往文件中写入任何数据
dd
和 yes
都有写文件操作,而这需要大量的 IO 时间,所以同样创建 10G
的文件,它们比 fallocate
和 truncate
要慢很多
dd
、yes
、fallocate
、truncate
这几个命令都可以创建大文件, 在日常的使用中,我们该如何选择呢 ?
对速度没有很高的要求的情况下,一般首选 dd
,如果希望创建的文件中写入自定义的内容的话,使用 yes
如果想快速的创建大文件,比如 1 秒内创建一个 100G 的文件,选择 fallocate
和 truncate
,如果还需要确保文件是实际占用磁盘空间的话,就只剩下 fallocate
可选了
大部分情况下,fallocate
都能满足要求,所以不想仔细分析的话,使用 fallocate
就行了
本文介绍了Linux下创建大文件的几种方法,并对所提供的方法进行了比较,最后提供了如何选择使用哪种方法的一些建议,文中只对 dd
、yes
、fallocate
、truncate
命令做了简要的说明,更多的介绍请参考 man
文档
我目前正在尝试让 g++ 工作,并查看 http://gcc.gnu.org/install/build.html ,我似乎找不到它在哪里说如何“执行编译器的 3 阶段 bootstrap ”。我在哪
James Powell 在他对即将举行的演示文稿的简短描述中说,他自豪地发明了最粗糙的 Python 单行代码之一: (None for g in g if (yield from g) and F
请告诉我我的证明是否正确 We have a connected graph, and specific vertex u in V(G). Suppose we compute the dfs tr
下面的test2和test3结果是不同的。 我对此感到困惑,因为它看起来像相同的逻辑,并且与linux bash ||逻辑不同。 $data = @( [PSCustomObject]@{St
我试图找到一个明确的 G 代码语法规范,而不是单个 G 代码的含义,我无处不在的规范,我的意思是详细的语法规范,目的是编写解析器。 我编写解析器没有问题,我只是在寻找语法规范,例如。我知道您不必总是为
我写了这个 mixin,但它循环了很多时间。你能帮我优化我的代码吗?或者你能建议一些其他的东西来获得想要的结果吗? dfgdfgsdfgsdf 最佳答案 希望这就是您要找的。 $spaces: (4,
默认情况下,g++ 似乎会省略未使用的类内定义方法的代码。示例 from my previous question : struct Foo { void bar() {} void baz(
是否可以将文件内容通过管道传送到 g++编译程序? 我想这样做是因为我想使用数据库中的文件而不是磁盘上的物理文件。可以通过我制作的 API 轻松检索文件内容。 例如,我想做这样的事情: g++ con
如何profile c++代码获取每行代码的调用次数和消耗时间,就像profile工具一样在 Matlab 中呢? 我尝试使用-fprofile-arcs之类的东西,但它只生成代码覆盖率报告,其中可以
如何在几行代码上禁用所有警告。可以使用 GCC 诊断功能禁用特定警告,但是否有针对所有警告的标志。我尝试了这个方法,但不起作用 #pragma GCC diagnostic push #pragma
我有一个链接到 opencv 2.2 的可执行文件。但是,我删除了 opencv 2.2 并安装了 opencv 2.3。 问题是,有没有办法在不重新编译整个源代码的情况下将这个可执行文件链接到新的共
在编译带有一些标志的以下文件时,是否可以让 g++ 显示错误? #include using namespace std; int main() { int arr[ 2 ]; cout
在学习 Haskell 时,我遇到了一个挑战,要找到两个函数 f 和 g,例如 f g 和 f 。 g 是等价的(并且是总计,因此像 f = undefined 或 f = (.) f 这样的东西不算
根据我的理解,Theta 位于 Big O 和 Omega 之间,但我看到了这个声明,但我无法理解为什么交集会出现在这里。我能否对 Θ(g(n)) = O(g(n)) ∩ Ω(g(n)) 获得数学和分
我需要为这个递归函数编写一个迭代函数。 int funcRec(int n){ if(n>1) { return 2*funcRec(n - 1) + 3*funcRec(n
我在 github repository 上有代码示例并在 travis-ci 上创建了一个构建便于复制。 最小的、完整的和可验证的例子 可能不是最小的,但我相信它足够小 它使用 boost.inte
编辑:我们将调用箭头 p纯如果存在这样的函数f即:p = arr f . 我试图更好地掌握 Haskell 中的 Arrows,我想弄清楚什么时候 f >>> (g &&& h) = (f >>> g
我有两个(或更多)函数定义为: val functionM: String => Option[Int] = s => Some(s.length) val functionM2: Int => Op
好像是的。任何直观或严肃的证据都值得赞赏。 最佳答案 没有。 我认为您的问题等同于:给定函数 f 和 g,f 是 O(g) 或 g 是 O(f) 是否总是正确的?这在 SE Computer Scie
如果我设法证明 f(n) = o(g(n))(小 o),那么这两个函数的总和 f( n) + g(n) 应该被“更大”的函数 g(n) 紧紧束缚。 然而,我在证明这一点时遇到了一些麻烦。 最佳答案 以
我是一名优秀的程序员,十分优秀!