gpt4 book ai didi

apache-spark - 将 spark 数据框转换为没有 pandas 数据框的元组列表

转载 作者:行者123 更新时间:2023-12-05 02:10:42 27 4
gpt4 key购买 nike

我有一个现有的逻辑,可以将 pandas 数据框转换为元组列表。

list(zip(*[df[c].values.tolist() for c in df])) 

其中 df 是 Pandas 数据框。

有人请帮助我在 pyspark 中实现没有 pandas 的相同逻辑。

最佳答案

您可以先使用 rdd 方法将 dataframe 转换为 RDDRow在 dataframes 中也是一个 tuple,所以你可以:

rdd = df.rdd
b = rdd.map(tuple)
b.collect()

示例 DF:

df.show()
+-----+-----+
| Name|Score|
+-----+-----+
|name1|11.23|
|name2|14.57|
|name3| 2.21|
|name4| 8.76|
|name5|18.71|
+-----+-----+

b.collect()之后

[('name1', 11.23), ('name2', 14.57), ('name3', 2.21), ('name4', 8.76), ('name5', 18.71)]

编辑

如果你要遍历这个元组列表,你可以调用 collect() 但正确的方法是 toLocalIterator()

关于apache-spark - 将 spark 数据框转换为没有 pandas 数据框的元组列表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58384423/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com