gpt4 book ai didi

hadoop - 在 PIG 加入 VS COGROUP

转载 作者:可可西里 更新时间:2023-11-01 14:11:06 25 4
gpt4 key购买 nike

当我在 pig 中使用 COGROUP 而不是 JOIN 时,是否有任何优势(wrt 性能/ map 数量减少)?

http://developer.yahoo.com/hadoop/tutorial/module6.html谈论他们产生的输出类型的差异。但是,忽略“输出模式”,性能有什么显着差异吗?

最佳答案

没有重大的性能差异。我这样说的原因是它们最终都是一个 MapReduce 作业,将相同的数据转发给 reducer。两者都需要以外键为键发送所有记录。如果有的话,COGROUP 可能会更快一些,因为它不会对命中进行笛卡尔积并将它们保存在单独的包中。

如果您的数据集很小,您可以使用名为 "replicated join" 的连接选项.这会将第二个数据集分发到所有 map task 并将其加载到主内存中。这样,它可以在映射器中完成整个连接,而不需要缩减器。根据我的经验,这是非常值得的,因为连接和协同组的瓶颈是将整个数据集改组到 reducer。据我所知,您不能使用 COGROUP 执行此操作。

关于hadoop - 在 PIG 加入 VS COGROUP,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7496029/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com