gpt4 book ai didi

python - Pyspark:是否有与 pandas info() 等效的方法?

转载 作者:太空宇宙 更新时间:2023-11-03 15:08:46 25 4
gpt4 key购买 nike

PySpark 中是否有与 pandas info() 方法等效的方法?

我正在尝试获取有关 PySpark 中数据帧的基本统计信息,例如:列数和行数空值数量数据框的大小

pandas 中的 Info() 方法提供了所有这些统计信息。

最佳答案

还有summary方法来获取行号和其他一些描述性统计信息。它类似于已经提到的describe方法。

来自 PySpark manual :

df.summary().show()
+-------+------------------+-----+
|summary| age| name|
+-------+------------------+-----+
| count| 2| 2|
| mean| 3.5| null|
| stddev|2.1213203435596424| null|
| min| 2|Alice|
| 25%| 2| null|
| 50%| 2| null|
| 75%| 5| null|
| max| 5| Bob|
+-------+------------------+-----+

or

df.select("age", "name").summary("count").show()
+-------+---+----+
|summary|age|name|
+-------+---+----+
| count| 2| 2|
+-------+---+----+

关于python - Pyspark:是否有与 pandas info() 等效的方法?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/44420237/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com