gpt4 book ai didi

hadoop - map task 是否并行读取其输入数据?

转载 作者:可可西里 更新时间:2023-11-01 16:33:09 25 4
gpt4 key购买 nike

假设 HDFS 的复制因子是 3,那么对于一个 map 任务,有三个节点保存它的输入数据。 map 任务是从所有 3 个节点并行读取还是随机选择其中一个?

我做了一些实验,我将其中一个数据节点设置为具有非常低的带宽并获得一些非常慢的 map task ,所以我猜 map task 不会并行读取所有可用的数据节点,我是对的?

感谢您的帮助!

最佳答案

如果您的复制因子是 3,则集群中有三个节点保存特定映射任务的输入数据。

Job Tracker 只会将 map 任务分配给这三个节点中的一个,因此它只会从该节点读取数据。

Hadoop 具有称为推测执行的功能。在推测执行中,如果 Job Tracker 发现其中一个 map 任务完成时间过长,它将在数据可用的另一个节点上启动相同的 map 任务。发送到 reducer 的数据取自最先完成的 map 任务。在这种情况下,您将有 2 个映射任务读取相同的输入数据,但在不同的节点上。

关于hadoop - map task 是否并行读取其输入数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19963416/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com