gpt4 book ai didi

apache-spark - 如何在 Pyspark 中对数据框进行排序

转载 作者:行者123 更新时间:2023-12-04 05:08:54 25 4
gpt4 key购买 nike

这个问题在这里已经有了答案:





How could I order by sum, within a DataFrame in PySpark?

(1 个回答)


3年前关闭。




我有一个数据框:

# +---+--------+---------+
# | id| rank | value |
# +---+--------+---------+
# | 1| A | 10 |
# | 2| B | 46 |
# | 3| D | 8 |
# | 4| C | 8 |
# +---+--------+---------+

我想按值对其进行排序,然后进行排名。这看起来应该很简单,但我没有看到 Pyspark 的文档或 SO 中是如何完成的,仅适用于 R 和 Scala。

这是排序后的样子, .show() 应该打印:
# +---+--------+---------+
# | id| rank | value |
# +---+--------+---------+
# | 4| C | 8 |
# | 3| D | 8 |
# | 1| A | 10 |
# | 2| B | 46 |
# +---+--------+---------+

最佳答案

假设您的数据帧存储在一个名为 df 的变量中
你会做 df.orderBy('value').show()把它整理好

关于apache-spark - 如何在 Pyspark 中对数据框进行排序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50824543/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com