gpt4 book ai didi

hadoop - 将输入拆分到 hadoop 中的 reducer

转载 作者:可可西里 更新时间:2023-11-01 16:30:56 24 4
gpt4 key购买 nike

这个问题与我的另一个问题有点相关 Hadoop handling data skew in reducer .但是,我想问一下是否有一些可用的配置设置,以便如果说达到最大 reducer 内存然后在另一个数据节点上产生一个新的 reducer ,其余数据在上下文中?或者甚至可能在同一个数据节点上,这样说在 reduce 方法中读取上下文中的一些 x 记录直到达到某个限制,然后在新的 reducer 中读取剩余的记录?

最佳答案

您可以尝试一个组合器,它可以通过在数据传递到 reducer 之前进行可能的聚合来减少处理更多键值对的单个 reducer 的工作负载。如果您正在进行连接,那么您可以在 Pig 中尝试 skewed join。它涉及 2 个 MR 作业。在第一个 MR 中,它对一个输入进行采样,如果它发现一个倾斜度如此之高以至于能够装入内存的键,它将将该键拆分为多个 reducer。对于样本中标识的记录以外的其他记录,它会进行默认连接。对于倾斜的输入,它复制输入并将其发送到两个 reducer 。

关于hadoop - 将输入拆分到 hadoop 中的 reducer ,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32637746/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com