gpt4 book ai didi

python - 重用两个 MapReduce 作业的输出并将结果连接在一起

转载 作者:可可西里 更新时间:2023-11-01 15:49:02 27 4
gpt4 key购买 nike

我想合并两个不同 MapReduce 作业的输出。我希望能够像下面那样做一些事情,但我不知道如何重用以前工作的结果并加入它们。我怎么能这样做?

Job1: 
Andrea Vanzo, c288f70f-f417-4a96-8528-25c61372cae7, 125

Job2:
c288f70f-f417-4a96-8528-25c61372cae7, 071e1103-1b06-4671-8324-a9beb3e90d18, 25

Result:
Andrea Vanzo, c288f70f-f417-4a96-8528-25c61372cae7, 25

最佳答案

您可以使用 JobControl 在您的 mappereduce 中设置您的工作流程,顺便说一句,读取 job1 和 job2 的输出(使用 MultipleInputs)也可以解决您的问题。

根据数据的路径,采用不同的处理方式,写入数据。

映射器

job1data == job1.path => split write key data[1] ,value data[0]+"tagjob1"

job2data ==job2.path =>split write key data[0] ,value data[0]+"tagjob2"

reducer
每个键都有它的值集。

通过“标签”将值放入两个列表组中

写出键和两个列表的每个笛卡尔积。

希望

关于python - 重用两个 MapReduce 作业的输出并将结果连接在一起,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52941214/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com