gpt4 book ai didi

apache-spark - PySpark:我需要重新缓存 DataFrame 吗?

转载 作者:行者123 更新时间:2023-12-04 18:02:27 24 4
gpt4 key购买 nike

假设我有一个数据框:

rdd = sc.textFile(file)
df = sqlContext.createDataFrame(rdd)
df.cache()

我添加一列
df = df.withColumn('c1', lit(0))
我想用 df反复。所以我需要重新- cache()数据框,还是 Spark 自动为我做?

最佳答案

每次操作/更改数据框时,您都必须再次重新缓存数据框。但是,不必重新计算整个数据帧。

df = df.withColumn('c1', lit(0))

在上面的语句中,一个新的数据帧被创建并重新分配给变量 df .但是这次只计算新列,其余的从缓存中检索。

关于apache-spark - PySpark:我需要重新缓存 DataFrame 吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42047658/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com