gpt4 book ai didi

apache-spark - 从 Pyspark 中的数据帧插入或更新增量表

转载 作者:行者123 更新时间:2023-12-04 13:29:01 25 4
gpt4 key购买 nike

我目前有一个 pyspark 数据框,我最初使用以下代码从中创建了一个增量表 -

df.write.format("delta").saveAsTable("events")
现在,由于上面的数据框在我的要求中每天填充数据,因此为了将新记录附加到增量表中,我使用了以下语法 -
df.write.format("delta").mode("append").saveAsTable("events")
现在我在数据块和我的集群中完成了这一切。我想知道如何在 python 中编写通用 pyspark 代码,如果它不存在将创建增量表,如果增量表存在则追加记录。我想做的这件事是因为如果我将我的 python 包给某人,他们不会在他们的环境中有相同的增量表,所以它应该从代码动态创建。

最佳答案

如果你还没有 Delta 表,那么它会在你使用 append 时被创建。模式。因此,您无需编写任何特殊代码来处理表尚不存在和退出时的情况。
附言只有在您执行合并到表中而不是追加的情况下,您才需要拥有此类代码。在这种情况下,代码将如下所示:

if table_exists:
do_merge
else:
df.write....

关于apache-spark - 从 Pyspark 中的数据帧插入或更新增量表,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/66340758/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com