gpt4 book ai didi

hadoop - map task 的输入拆分正在运行其他 map task

转载 作者:行者123 更新时间:2023-12-02 21:40:52 25 4
gpt4 key购买 nike

我无法理解 Hadoop - Definitive Guide 3rd Edition(第 31 页)中的此语句“但是,有时,托管映射任务输入拆分的 HDFS block 副本的所有三个节点都在运行其他映射任务,因此作业调度程序将寻找与其中一个 block 在同一机架中的节点上的空闲映射槽。有时即使这是不可能的,因此使用机架外节点,这会导致机架间网络传输。 ,

我的问题是

1) 我无法获得此声明的完整上下文

2)这是否意味着如果输入拆分被其他 map task (运行 map task )获取,它说(等待 map task )将寻找相同拆分的其他副本?如果正在运行 map task 和等待 map task 中的 map 逻辑相同,“等待 map task ”将不使用“正在运行 map task ”的输出

最佳答案

正如您可以在同一本书中进一步阅读的那样(我身边有一本),带宽问题非常令人担忧。因此,数据节点离映射器任务越近,性能越好。

你也可以在同一本书中读到,hadoop 不会自己猜测网络拓扑(有这样的配置一章),

关于问题2)
理想情况下,分割的大小应该与 HDFS block 的大小相同。有时,文件不能被分割(如果你检查压缩,你会看到某些压缩算法不允许分割),因此映射器将不得不获取几个 block 。此外,这些 block 可以分布在多个机架上。

关于hadoop - map task 的输入拆分正在运行其他 map task ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28830247/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com