gpt4 book ai didi

hadoop - 如何将级联作业的输出合并到特定大小

转载 作者:可可西里 更新时间:2023-11-01 16:38:58 25 4
gpt4 key购买 nike

我有一个输出 30 个 25MB 文件的级联作业。无论如何我可以将它减少到每个 256 mb 文件。我试过 -Dmapreduce.job.reduces=1。它似乎没有工作。任何指导都会有所帮助

最佳答案

Total memory = 30*25 = 750 ,

required output files = 750/256 = 3 ,

您可以在您的作业中再添加一个 map-reduce 任务。在最终输出管道上放置 group by 或 unique 或您可以为其设置 reducer 数量并将 reducer 数量设置为 3 或 4 的任何操作,这样您将获得数字输出文件的数量作为 reducer 的数量。

关于hadoop - 如何将级联作业的输出合并到特定大小,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45636266/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com