gpt4 book ai didi

scala - 克隆/深度复制 Spark 数据帧

转载 作者:行者123 更新时间:2023-12-04 05:11:08 25 4
gpt4 key购买 nike

如何请求 DataFrame 的深拷贝 - 而不诉诸对原始 DataFrame 内容的完全重新计算?

目的是在 Spark Stream 上执行自联接。

最佳答案

数据帧是不可变的。这意味着您不必进行深度复制,您可以多次重用它们,并且在每次操作时都会创建新的数据帧,而原始数据帧将保持不变。

例如:

val df = List((1),(2),(3)).toDF("id")

val df1 = df.as("df1") //second dataframe
val df2 = df.as("df2") //third dataframe

df1.join(df2, $"df1.id" === $"df2.id") //fourth dataframe and df is still unmodified

这似乎是一种资源浪费,但由于数据帧中的所有数据也是不可变的,因此所有四个数据帧都可以重用对其中对象的引用。

关于scala - 克隆/深度复制 Spark 数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57047140/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com