gpt4 book ai didi

python - 从pyspark DataFrame中提取数据

转载 作者:行者123 更新时间:2023-12-04 07:43:22 30 4
gpt4 key购买 nike

我有一个看起来像这样的结果 DF:

+--------------------+----------+
| name|prediction|
+--------------------+----------+
| "Mazda RX4"| 0|
| "Mazda RX4 Wag"| 0|
| "Datsun 710"| 1|
| "Hornet 4 Drive"| 0|
| "Hornet Sportabout"| 2|
| "Valiant"| 0|
| "Duster 360"| 2|
| "Merc 240D"| 1|
| "Merc 230"| 1|
| "Merc 280"| 0|
| "Merc 450SE"| 3|
| "Merc 450SL"| 3|
+--------------------+----------+
我想获得一个列表列表,其中每个列表都包含类似预测的名称。所以一个列表是:
["Mazda RX4", "Mazda RX4 Wag", "Hornet 4 Drive",  "Valiant", "Merc 230"]
我试过做 result.groupBy('prediction').collect()但没有用。而且我也不能用循环迭代 DF。请帮忙。

最佳答案

试试 过滤器 然后 groupBy+ aggregate

from pyspark.sql.functions import *

df.\
filter(col("prediction")==0).\
groupBy("prediction").\
agg(collect_list(col("name"))).\
collect()[0][1]

#result
#["Mazda RX4", "Mazda RX4 Wag", "Hornet 4 Drive", "Valiant", "Merc 230"]

关于python - 从pyspark DataFrame中提取数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/67324505/

30 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com