gpt4 book ai didi

hadoop - 部分聚合与组合器哪个更快?

转载 作者:可可西里 更新时间:2023-11-01 14:39:11 25 4
gpt4 key购买 nike

关于级联/烫伤如何优化有通知map-side evaluation他们使用所谓的部分聚合。它实际上是比 Combiners 更好的方法吗?是否有一些常见的 hadoop 任务(例如字数统计)的性能比较?如果是这样,hadoop 将来会支持吗?

最佳答案

在实践中,部分聚合比使用组合器有更多好处。

组合器有用的情况是有限的。此外,组合器优化了任务所需的吞吐量,而不是减少的数量——这是一个微妙的区别,可以增加显着的性能增量。

在大型分布式工作流中,部分聚合的用例范围要广得多。此外,部分聚合可用于优化工作流所需的作业步骤数。

示例显示在 https://github.com/Cascading/Impatient/wiki/Part-5 中它使用 CountBySumBy 部分聚合。如果您回顾该项目在 GitHub 上的代码提交历史记录,您会发现之前使用了 GroupByCount,这导致了更多的 reduce。

关于hadoop - 部分聚合与组合器哪个更快?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/10925840/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com