gpt4 book ai didi

python - Pyspark reduceByKey 返回元组列表

转载 作者:太空宇宙 更新时间:2023-11-04 06:41:16 26 4
gpt4 key购买 nike

我有一个像这样的 rdd:

rdd = [((uid1), (product1, price1, date1)),
((uid1), (product2, price2, date2))]

我希望输出看起来像这样:

reduced_rdd = [((uid1), ((product1, price1, date1), (product2, price2, date2)))]

所以我尝试做类似的事情:

reduced_rdd = rdd.reduceByKey(lambda a,b: a+b)

但是输出不是我想要的:

reduced_rdd = [((uid1), (product1, price1, date1, product2, price2, date2))]

因为当我使用 + 运算符时这些元组连接在一起,如果我尝试将它们附加到列表中,我会得到一个丑陋的嵌套列表。我怎样才能得到一个很好的简化 rdd,其中的值很好并且在它们自己的元组中相当?

最佳答案

请记住,只有一个元素的元组仍必须表示为 (tuple,) 因此您所要做的就是将其用作参数函数

lambda a,b: (a,) + (b,)

关于python - Pyspark reduceByKey 返回元组列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/45069081/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com