gpt4 book ai didi

apache-spark - (Py)Spark 框架中数据框的数据可视化

转载 作者:行者123 更新时间:2023-12-01 06:04:16 25 4
gpt4 key购买 nike

关于 Spark DataFrames 方法可视化的问题。

至于现在(我使用 v. 2.0.0),Spark DataFrames 还没有任何可视化功能(还)。通常的解决方案是将 DataFrame 的一些 样本 收集到驱动程序中,将其加载到例如 Pandas DataFrame 中,并使用其可视化功能。

我的问题是:我如何知道最大程度地利用驱动程序内存的最佳采样大小是多少,以便可视化数据?或者,解决此问题的最佳做法是什么?

谢谢!

最佳答案

我不认为这会回答你的问题,但希望它能为其他人或你提供一些视角。

我通常在 spark 上聚合,然后使用 Pandas 进行可视化(但不要将其存储到变量中)。在示例(简化)中,我会计算每天的活跃用户数,然后仅通过 Pandas 收集和可视化这个计数(如果可能,我会尽量避免将数据保存到变量中):

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)

关于apache-spark - (Py)Spark 框架中数据框的数据可视化,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41954931/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com