gpt4 book ai didi

python - 访问 PySpark 中的计数列

转载 作者:太空狗 更新时间:2023-10-30 02:57:06 24 4
gpt4 key购买 nike

code:

mydf = testDF.groupBy(testDF.word).count()
mydf.show()

output:

+-----------+-----+
| word|count|
+-----------+-----+
| she| 2208|
| mothers| 93|
| poet| 59|
| moving| 18|
| active| 6|
| foot| 169|

我想根据字数降序排列这个数据框。

code:

countDF = mydf.orderBy(mydf.count.desc())
countDF.show()

Error:

AttributeError: 'function' object has no attribute 'desc'

请让我知道哪里出错了。

最佳答案

嗯,点表示法不是访问列的最佳方法。虽然 DataFrame 提供列感知 __getattr__ 你可能会遇到像这样的冲突,其中名称将解析为一个方法(这里是 DataFrame.count )所以最好使用括号表示法:

mydf.orderBy(mydf["count"].desc())

col函数:

from pyspark.sql.functions import col

mydf.orderBy(col("count").desc())

引用列。

关于python - 访问 PySpark 中的计数列,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38380532/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com