gpt4 book ai didi

hadoop - 了解 mapper 和 reducer 的用法

转载 作者:可可西里 更新时间:2023-11-01 16:22:56 26 4
gpt4 key购买 nike

我正在运行超过 550 Gb 数据的 pig latin 脚本。reducer 默认为 1。生成结果大约需要 38 分钟。我想知道增加 reducer 的数量是否会更快地执行脚本

我们将不胜感激。

此外,我想知道设置映射器和缩减器背后的概念。

最佳答案

增加 reducer 的数量肯定会有所帮助(如果您正在执行的操作具有聚合)。由于实际聚合发生在 reduce 端,运行多个 reducer 会提高性能。

您可以使用“Parallel”关键字设置 pig 中的 reducer 数量。前任:A = LOAD 'myfile' AS (t, u, v);B = GROUP A BY t PARALLEL 18;

映射器的数量取决于输入的大小和我们使用的输入格式。映射器的数量通常等于输入拆分的数量。

关于hadoop - 了解 mapper 和 reducer 的用法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23211407/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com