gpt4 book ai didi

scala - 在 Spark Scala 中合并两个 RDD

转载 作者:行者123 更新时间:2023-12-04 17:52:32 24 4
gpt4 key购买 nike

我有两个 RDD。

rdd1 =(字符串,字符串)

key1, value11
key2, value12
key3, value13

rdd2 =(字符串,字符串)

key2, value22
key3, value23
key4, value24

我需要用来自 rdd1 和 rdd2 的合并行形成另一个 RDD,输出应该如下所示:

key2, value12 ; value22
key3, value13 ; value23

所以,基本上就是取 rdd1 和 rdd2 的键的交集,然后连接它们的值。** 值应该按顺序排列,即 value(rdd1) + value(rdd2) 而不是倒序。

最佳答案

我认为这可能是您正在寻找的:

join(otherDataset, [numTasks])  

当在 (K, V) 和 (K, W) 类型的数据集上调用时,返回一个 (K, (V, W)) 对的数据集,其中包含每个键的所有元素对。 leftOuterJoin、rightOuterJoin 和 fullOuterJoin 支持外部联接。

See the associated section of the docs

关于scala - 在 Spark Scala 中合并两个 RDD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31662685/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com