gpt4 book ai didi

hadoop - 如何限制在 map reduce 作业中发送到 reducer 的记录数?

转载 作者:可可西里 更新时间:2023-11-01 14:50:34 25 4
gpt4 key购买 nike

我有一个超过 300000 行的文件,它是 map reduce 作业的输入,我希望该作业仅处理该文件的前 1000 行。有什么好的方法可以限制发送到 reducer 的记录数吗?

我只需要一个简单的 identity reducer 就可以写出我的输出。目前,reducer 写出的行数与输入中的行数一样多。

最佳答案

首先,确保您的 mapreduce 程序设置为仅使用一个 reducer。它必须明确设置,否则 Hadoop 可能会选择其他一些数字,然后就没有好的方法来协调 reduce 任务以确保它们发出的总数不超过 1000。然后,您可以简单地在 Reducer 类中维护一个实例变量,该变量计算它看到的记录数,并在 1000 之后停止发出它们。

另一种可能更简单的方法是缩短输入文件。只需删除不需要的行即可。

还值得注意的是,hive 和 pig 都是可以为您完成此类操作的框架。编写“原始”MapReduce 代码在实践中很少见。大多数人使用这两者之一。

关于hadoop - 如何限制在 map reduce 作业中发送到 reducer 的记录数?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12466759/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com