gpt4 book ai didi

hadoop - 有关Hadoop 0.20.203的MultipleOutputs的查询

转载 作者:行者123 更新时间:2023-12-02 21:57:52 26 4
gpt4 key购买 nike

我正在尝试在Reducer中使用MultipleOutputs,以便使用分区器写入多个文件。为此,我正在尝试在Reducer.setup()中构造其对象,如下所示:

public static class MOReduce extends Reducer<Text, Integer, Text, Integer> {
private MultipleOutputs mos;

public void setup( Reducer.Context context ) {
mos = new MultipleOutputs( context.getConfiguration() );
}

但由于以下原因,我面临问题:

按照 documentation
  • ,设置函数将Reducer.Context作为参数
  • ,而按照此documentation,MultipleOutputs构造函数需要JobConf。因此,基本上我没有办法从Reducer.Context
  • 中提取JobConf
  • 我已经尝试过任何类似Reducer.Context.getConfXXX的函数,该函数返回JobConf,但是只有一个函数getConfiguration()返回JobContext

  • 因此,您能否建议我如何解决此问题并实例化MultipleOutputs对象。

    最佳答案

    看看这个Multiple Output in Reducer

    hadoop中有两个API用于创建和管理mapreduce作业。一种是JobConf,另一种是Job。您似乎正在使用Job。对于您的情况,如上面的链接中所示,您需要创建自己的RecordWriter类和OutputFormat类。使用RecordWriter,您可以控制要写入哪些文件以及何时写入。

    关于hadoop - 有关Hadoop 0.20.203的MultipleOutputs的查询,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9440108/

    26 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com