gpt4 book ai didi

scala - 如何在不运行 Apache Spark 作业的情况下获取其 DAG?

转载 作者:行者123 更新时间:2023-12-02 23:49:32 32 4
gpt4 key购买 nike

我有一些 Scala 代码,可以使用 Spark-submit 与 Spark 一起运行。据我了解,Spark 创建一个 DAG 来安排操作。

有没有办法在不实际执行繁重操作的情况下检索此 DAG,例如仅仅通过分析代码?

我想要一个有用的表示,例如数据结构或至少是书面表示,而不是 DAG 可视化。

最佳答案

如果您使用数据帧(spark sql),您可以使用 df.explain(true) 来获取计划和所有操作(优化之前和之后)。

如果您使用 rdd,则可以使用 rdd.toDebugString 获取字符串表示形式,并使用 rdd.dependencies 获取树本身。

如果您在没有实际操作的情况下使用这些内容,您将获得将要发生的情况的表示,而无需实际执行繁重的工作。

关于scala - 如何在不运行 Apache Spark 作业的情况下获取其 DAG?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46254478/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com