gpt4 book ai didi

hadoop - Hadoop 中的文件存储、 block 大小和输入拆分

转载 作者:可可西里 更新时间:2023-11-01 14:47:12 25 4
gpt4 key购买 nike

考虑这个场景:

我有 4 个文件,每个 6 MB。 HDFS block 大小为 64 MB。

1 block 将包含所有这些文件。它有一些额外的空间。如果添加了新文件,它将容纳在这里

现在,当输入拆分是根据输入格式计算Map-reduce作业时,(拆分大小通常是 HDFS block 大小,以便每个拆分都可以加载到内存中进行处理,从而减少寻道时间。)

这里进行了多少次输入拆分:

  1. 是不是因为所有 4 个文件都包含在一个 block 中?

  2. 还是每个文件一个输入拆分?

  3. 这是如何确定的?如果我希望所有文件都作为单个输入拆分处理怎么办?

最佳答案

1 block will hold all these files. It has some extra space. If new files are added, it will accommodate here [...] is it one because all the 4 files are contained with in a block?

您实际上有 4 个 block 。所有文件是否都可以放入一个 block 中并不重要。

编辑: block 属于文件,而不是相反。 HDFS 旨在存储几乎肯定会大于您的 block 大小的大文件。每个 block 存储多个文件会给名称节点增加不必要的复杂性......

  • 文件不再是 blk0001,现在是 blk0001 {file-start -> file-end}
  • 如何附加到文件?
  • 删除文件后会发生什么?
  • 等等……

or is it one input split per file?

每个文件仍有 1 个拆分。

how is this determined?

This is how .

what if I want all files to be processed as a single input split?

使用不同的输入格式,例如 MultipleFileInputFormat

关于hadoop - Hadoop 中的文件存储、 block 大小和输入拆分,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/25002858/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com