gpt4 book ai didi

hadoop - 在单个mapreduce程序中加入三个文件

转载 作者:行者123 更新时间:2023-12-02 21:35:53 24 4
gpt4 key购买 nike

如何在单个mapreduce程序中连接三个大型数据集。这三个文件都无法容纳在内存中。file1的键为K1,file2的键为K2,file3的键为k1和k2。我想通过引用File3来连接File1和File2。请让我知道是否有任何技术可以做到这一点。先谢谢了...!!

最佳答案

您无法通过单个mapreduce作业来做到这一点。由于您必须为输入1和输入2创建两个单独的自定义可写类1(键必须为字段k1或k2和一个连接标识符),而为输入3创建一个单独的自定义可写类(键必须为字段k1,k2和一个连接标识符)。因此,它需要两个mapreduce作业。

MR 1(基于键K1连接输入1和输入3)。

映射器1

map 输出:

(K,V)=>(((K1,input1),value)

映射器2

map 输出:

(K,V)=>(((K1,input3),value)

在化简器中追加/加入数据集。

MR2(基于键K2连接MR 1的输入2和输出)

对应器1:

map 输出:

(K,V)=>(((K2,input2),value)

映射器2:

map 输出:

(K,V)=>(((K2,MR1的输出),值)

在Reducer中追加/加入数据集

关于hadoop - 在单个mapreduce程序中加入三个文件,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32346198/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com