gpt4 book ai didi

hadoop - Hadoop 中的负载均衡

转载 作者:可可西里 更新时间:2023-11-01 16:47:25 24 4
gpt4 key购买 nike

hadoop环境下如何做负载均衡。我刚刚开始阅读与 hadoop 相关的内容。想知道负载均衡在整个生态系统中是如何工作的

最佳答案

Hadoop 将 MapReduce 作业的输入分成固定大小的片段,称为输入 split , 要不就 split . Hadoop 为每个拆分创建一个映射任务,它运行用户-为每个定义映射函数记录 在 split 中。有很多拆分意味着处理每个拆分所花费的时间比处理整个输入的时间。因此,如果我们并行处理拆分,pro-如果拆分很小,处理的负载平衡会更好,因为更快的机器将能够与较慢的机器相比,在工作过程中按比例处理更多的拆分。即使机器相同,失败的进程或同时运行的其他作业使负载平衡成为可取的,并且负载平衡的质量随着拆分变得更细粒度。另一方面,如果拆分太小,那么管理拆分的开销和创建 map task 的时间开始支配总作业执行时间。对于大多数工作,一个好的拆分大小往往是 HDFS block 的大小,默认情况下为 64 MB,尽管这可以为集群更改(对于所有新创建的文件),或者在每个文件时指定已创建。

关于hadoop - Hadoop 中的负载均衡,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36028458/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com