gpt4 book ai didi

hadoop - 如何在mapreduce中加入多个数据集

转载 作者:可可西里 更新时间:2023-11-01 15:26:27 26 4
gpt4 key购买 nike

假设我有三个数据集,我想通过连接所有这三个数据集/文件来回答多个问题。例如,如果第一个数据集有 (id, name),第二个有 (id,sum,key),第三个有 (,价格)。

如何使用id连接第一个和第二个文件,在同一个程序中如何使用key连接第二个和第三个文件?

最佳答案

不可能在同一个程序中执行此操作。要完成您想要做的事情,您必须运行两个 map-reduce 作业。

第一个 map-reduce 作业处理第一个文件和第二个文件,生成格式如下的输出文件 -

id name,sum,key

上面reducer key是“id”,reducer value是“name,sum,key”

第二个 map-reduce 作业处理第一个 map-reduce 作业的输出和生成输出文件的第三个文件,其格式如下 -

id,key name,sum,price

上面reducer key是“id,key”,reducer value是“name,sum,price”

关于hadoop - 如何在mapreduce中加入多个数据集,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45943167/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com