gpt4 book ai didi

hadoop - PIG:如何为PARALLEL子句选择良好的值(value)?

转载 作者:行者123 更新时间:2023-12-02 21:21:02 25 4
gpt4 key购买 nike

我正在尝试针对给定的群集(512GB RAM,100个vCore)将具有相同PIG脚本的多个“实例”的工作流的执行时间减至最少。

对于COGROUP操作,增加PARALLEL子句的值可以得到更好的结果。但是,是否有一个公式可以为此类从句获得良好的值(value)? PIG文档对此非常回避!

最佳答案

不幸的是,定义 reducer 的数量不是一个固定的规则,而且可以通过经验研究COGROUP执行时间阶段并使用不同的PARALELL值来完成(根据我的经验,建议以100为起点)。

但是,上限通常定义为numReduces << heapSize /(2 * io.buffer.size)。更多您可以找到here

关于hadoop - PIG:如何为PARALLEL子句选择良好的值(value)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/37320211/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com