gpt4 book ai didi

hadoop - 确定要为Hadoop map reduce程序中的最快处理指定的reducer的最佳数量

转载 作者:行者123 更新时间:2023-12-02 19:52:53 24 4
gpt4 key购买 nike

Number Reducer的默认值为1。Partitioner确保来自多个映射器的相同键都指向同一个reducer,但这并不意味着Reducer的数量将等于分区的数量。在驱动程序中,可以使用JobConf的conf.setNumReduceTasks(int num)或在命令行中作为mapred.reduce.tasks指定 reducer 的数量。如果仅需要映射器,则可以将其设置为0。
我已阅读有关设置 reducer 数量的信息:

  • reducer 的数量可以在0.95或1.75之间乘以(节点数)*(每个节点的最大容器数)。我还在下面的链接中看到,增加 reducer 的数量会产生开销:

  • Number of reducers in hadoop
  • 另外,我在下面的链接中看到,reducer的数量最好设置为集群中的reduce插槽的数量(减去几个以允许失败):

  • What determines the number of mappers/reducers to use given a specified set of data
    基于1中指定的范围和基于2的范围,如何确定最佳数字以进行最快的处理?
    谢谢。

    最佳答案

    I want to know the approach for this in general.


    这个问题只能有一个 经验答案。引用 this问答中的答案

    By default on 1 GB of data one reducer would be used.[...]Similarly if your data is 10 Gb so 10 reducer would be used .


    默认值已经是经验法则。您可以通过进行经验测试来进一步调整默认数字,并查看性能如何变化。也就是说,目前全部。

    关于hadoop - 确定要为Hadoop map reduce程序中的最快处理指定的reducer的最佳数量,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/64331003/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com