gpt4 book ai didi

hadoop - HDFS复制机制下mapreduce如何工作等

转载 作者:可可西里 更新时间:2023-11-01 16:33:17 26 4
gpt4 key购买 nike

我正在学习 Hadoop,有 3 个问题是关于 dfs.replication 和 mapreduce 如何协同工作等。假设 replication = 1,那么每个 block 将被复制到两个 salves/data nodes (DN) 来处理数据。

问题 1:主节点/名称节点 (NN) 和每个 DN 如何知道哪个 DN 应该在哪个 block 上工作(例如,DN1 应该处理 block1 还是 DN2 应该这样做?)

问题 2:如果 DN1 发生故障,NN 不会立即知道。根据我看的PPT,它会在10分钟后知道。那么当NN将任务重新分配给DN2时,NN和DN2如何知道DN2应该从哪个点开始追赶呢?

问题3:有了云化的概念,DN可以在世界任何地方。因此,如果它们彼此相距很远,为了将大量 block 从客户端发送到 DN,将导致流量很大。如果很多服务器都在做这种工作,对互联网来说会不会是一个很大的负担?

最佳答案

答案 1:调度程序会将一些工作分配给其中一个 TaskTracker。 Hadoop 附带了一些调度程序(12)或者可以编写自定义调度程序。

答案2:只要处理失败,就会从头开始处理 block 。

答案 3:Hadoop 不是为节点之间的网络延迟非常高而设计的。因此,节点应在 DC 或可用区内创建。

关于hadoop - HDFS复制机制下mapreduce如何工作等,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/19265296/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com