gpt4 book ai didi

python - 在 PySpark 上描述数据帧

转载 作者:行者123 更新时间:2023-12-03 18:30:48 25 4
gpt4 key购买 nike

我有一个相当大的 Parquet 文件,我正在使用它加载

file = spark.read.parquet('hdfs/directory/test.parquet')

现在我想得到一些统计数据(类似于 pandas describe() 函数)。我试图做的是:
file_pd = file.toPandas()
file_pd.describe()

但显然这需要将所有数据加载到内存中,并且会失败。
任何人都可以提出解决方法吗?

最佳答案

你需要什么统计数据? Spark 也有类似的功能

file.summary().show()
+-------+----+
|summary|test|
+-------+----+
| count| 3|
| mean| 2.0|
| stddev| 1.0|
| min| 1|
| 25%| 1|
| 50%| 2|
| 75%| 3|
| max| 3|
+-------+----+

关于python - 在 PySpark 上描述数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/55938112/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com