gpt4 book ai didi

apache-spark - spark 中的 'load' 命令是 Action 还是转换?

转载 作者:行者123 更新时间:2023-12-04 04:23:42 24 4
gpt4 key购买 nike

df = spark.read.format('csv').load('...')

我的理解是,load 是一种转换,仅在调用操作时执行。但是,在执行 load 语句时,它似乎是 Spark UI 下的一个操作。

编辑:

从评论/答案中,我推断负载可能是也可能不是转换,而是 不是 绝对是一个伟大且可以理解的行动。

如果它不是一个 Action ,为什么要创建 DAG?
它为加载语句创建了一个 DAG,而不仅仅是 WholeStageCodegen(在 SQL 选项卡中)。
请看下图:
Screenshot

最佳答案

具体来说,根据您的评论:

Load does nothing. It is just part of the sqlContext.read or spark.read.format API as a parameter, that can be set indirectly or directly on the read. read allows data formats to be specified.



正如他们所说,DF 或底层 RDD 被懒惰地评估。

关于apache-spark - spark 中的 'load' 命令是 Action 还是转换?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58393048/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com