apache-spark - 如何用python在spark中加入两个RDD？-6ren

apache-spark - 如何用python在spark中加入两个RDD？

转载作者：行者123 更新时间：2023-12-04 05:22:39

认为

rdd1 = ( (a, 1), (a, 2), (b, 1) ),
rdd2 = ( (a, ?), (a, *), (c, .) ).

想要生成

( (a, (1, ?)), (a, (1, *)), (a, (2, ?)), (a, (2, *)) ).

有什么简单的方法吗？
我认为它与交叉连接不同，但找不到好的解决方案。
我的解决方案是

(rdd1
 .cartesian( rdd2 )
 .filter( lambda (k, v): k[0]==v[0] )
 .map( lambda (k, v): (k[0], (k[1], v[1])) ))

最佳答案

您只是在寻找一个简单的连接，例如

rdd = sc.parallelize([("red",20),("red",30),("blue", 100)])
rdd2 = sc.parallelize([("red",40),("red",50),("yellow", 10000)])
rdd.join(rdd2).collect()
# Gives [('red', (20, 40)), ('red', (20, 50)), ('red', (30, 40)), ('red', (30, 50))]

关于apache-spark - 如何用python在spark中加入两个RDD？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/30988996/

文章推荐： r - R中是否有像bigmemory这样的包可以处理大型列表对象？

文章推荐： svg - 奇怪形状的SVG投影

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 如何用python在spark中加入两个RDD？