gpt4 book ai didi

hadoop - Hadoop能否区分不同的从节点,指定每个节点处理不同的数据?

转载 作者:可可西里 更新时间:2023-11-01 15:37:15 24 4
gpt4 key购买 nike

我需要这样的东西:

例如,映射器输入需要三个文件:file01、file02 和 file03。本地磁盘中还存储了三个文件作为配置参数:r1、r2、r3。

mapper程序首先对r1、r2、r3进行处理,生成三个不同的程序实例p1、p2、p3(处理算法相同,但参数不同,所以实例不同)。

我想要的是p1只处理file01,p2只处理file02,p3只处理file03。即三个slave节点的处理方式相同,但输入输出不同,可以吗?

为什么我需要这个?因为r1、r2、r3实例非常大,如果合并成一个实例,计算速度太慢。据我所知,这个需求在Hadoop上是无法实现的,因为mapper的输入文件似乎无法区分。对此有什么想法吗?提前致谢。

最佳答案

我认为 MultipleInputs是处理这个问题的完美类(class)。基本上它允许您让不同的映射器处理不同的数据(您也可以指定不同的输入格式)。

语法是:MultipleInputs.addInputPath(job,inputPath,SequenceFileInputFormat.class,MyMapper.class);//如果它们都使用相同的映射器,则不需要指定映射器

关于hadoop - Hadoop能否区分不同的从节点,指定每个节点处理不同的数据?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23156323/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com