gpt4 book ai didi

hadoop - 将运行多少映射器?

转载 作者:可可西里 更新时间:2023-11-01 16:29:59 26 4
gpt4 key购买 nike

我有这个问题。假设我有 3 个数据节点+节点管理器(集群)。我们的复制因子为 3。在第一个集群中我们有 4 个 block ,因此默认情况下 4 个映射器将在第一个集群上并行运行。那么因为我们的复制因子为 3,所以我们将在开始时运行 12 个映射器?

最佳答案

block 数取决于文件大小。如果您有 1gb 的文件,可以构成 8 个 block (共 128 mb)。

所以现在所有 8 个 block 将按照 data locality and rack awareness 被复制三次- 但这并不意味着当您针对此文件运行任何作业时,将处理所有 24 (8 x 3) block 。复制用于从磁盘故障类型的场景中恢复。

所以回答你的问题:

映射器的数量 = 输入拆分的数量(在大多数情况下是 block 的数量)。

集群上只会运行 8 个映射器。 Hadoop 将根据数据位置决定这些映射器需要在哪个节点上运行 - 在集群(节点)中最近的 block 位置。

如果为集群启用推测执行,将会有不同的情况 - hadoop-speculative-task-execution

关于hadoop - 将运行多少映射器?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38553441/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com