gpt4 book ai didi

hadoop - 限制Map Reduce API中reducer的输出

转载 作者:行者123 更新时间:2023-12-02 21:12:28 25 4
gpt4 key购买 nike

在我的mapreduce程序中,我的reducer的输出产生100万行输出,但是我只需要最初的前3条输出线。为此,我在我的Reducer类中维护了一个实例变量,该变量计算它已查看的记录数,并在3之后停止发出它们。但是reducers仍然必须遍历所有100万条记录。有没有办法我可以在读取前3条记录后立即停止执行以提高代码的性能。

而且在这里,我必须将reducer的数量设置为1,以便我的实例变量count可以正常工作,并且这也合起来会降低程序的性能。

谢谢,非常感谢您的帮助。

最佳答案

在您的情况下,可以将reducer的数量设置为1,在此类内您可以对前3行进行计数并为其输出输出,然后忽略任何不输出任何内容的输入。这不会阻止框架继续为映射器计算出的所有键调用reduce()方法。

如果可能的话,应在映射器级别,组合器或分区器上减少输出。

AFAIK无法减少还原过程。

关于hadoop - 限制Map Reduce API中reducer的输出,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39930575/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com