gpt4 book ai didi

hadoop - 映射器数量

转载 作者:可可西里 更新时间:2023-11-01 16:30:57 24 4
gpt4 key购买 nike

我在 hdfs 上有 4 个文件。

1.txt、2.txt、3.txt 和 4.txt。在这 4 个文件中,前 3 个文件的数据内容如下,4.txt 文件为空。映射器如何执行。

映射器的数量 = 输入拆分的数量。

我的问题是,所有这些文件是存储在一个 64 MB 的 block 中还是存储在 4 个不同的 block 中?因为每个文件的数据大小小于 64MB。

1.txt This is text file 1

2.txt This is text file 2

3.txt This is text file 3

4.txt "Empty"

最佳答案

它将存储在 4 个不同的 block 中,除非您将其打包并存储在 HAR 文件中。这个概念是,如果您的文件大小大于 block 大小,那么您的单个文件将被拆分并存储在不同的 block 中,否则如果它小于 block 大小,那么文件将独立存储在不同的 block 中。但是,即使 block 大小为 64 MB 或更大,它也不会使用超过实际文件大小。引用权威指南:

HDFS stores small files inefficiently, since each file is stored in a block, and block metadata is held in memory by the namenode. Thus, a large number of small files can eat up a lot of memory on the namenode.

所以在您的情况下,它仍然会使用 4 个映射器,因为我们有 4 个 block 。

关于hadoop - 映射器数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32489298/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com