gpt4 book ai didi

java - 如何使用自定义逻辑组合两个 JavaPairRDD

转载 作者:行者123 更新时间:2023-11-30 10:40:51 34 4
gpt4 key购买 nike

我有两个 JavaPairRDD。

JavaPairRDD<List<String>, CustomObject> originalData = ...;
JavaPairRDD<String, CustomField> newData = ...;

在这种情况下,CustomField 是 CustomObject 中的一个字段。我的目标是在 newData 的键在 originalData 的键中的条件下合并这两个数据集。所以,如果我有类似的东西

原始数据 = ({"foo1", "foo2", "foo3"}, customObject1)

newData = ("foo1", customField1)

我想匹配这两项,并将 customField1 插入到 customObject1 中。我查看了 Cogroup 和 FullOuterJoin,但这些函数是通过键匹配的,在这种情况下这不起作用,因为键明显不同。合并这两个数据集的最佳方式是什么?

最佳答案

你需要原始形状吗?如果不使用笛卡尔:

originalData.cartesian(newData).filter(checkConditon);

你也可以把它弄平:

JavaPairRDD<String, CustomObject> flatData = originalData.flatMap(flatteningFunc);
flatData.join(newData);

关于java - 如何使用自定义逻辑组合两个 JavaPairRDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38731015/

34 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com