gpt4 book ai didi

apache-spark - 如何在 Spark 结构化流中使用流数据帧更新静态数据帧

转载 作者:行者123 更新时间:2023-12-02 02:49:10 26 4
gpt4 key购买 nike

我有一个静态 DataFrame数百万行如下。

静态 DataFrame :

--------------
id|time_stamp|
--------------
|1|1540527851|
|2|1540525602|
|3|1530529187|
|4|1520529185|
|5|1510529182|
|6|1578945709|
--------------

现在每批次都有一个 Streaming DataFrame正在形成,其中包含 id 和更新的时间戳,经过如下操作。

在第一批:
--------------
id|time_stamp|
--------------
|1|1540527888|
|2|1540525999|
|3|1530529784|
--------------

现在,在每个批次中,我都想使用 Streaming Dataframe 的更新值更新静态 DataFrame,如下所示。 怎么做?

第一批后的静态 DF:
--------------
id|time_stamp|
--------------
|1|1540527888|
|2|1540525999|
|3|1530529784|
|4|1520529185|
|5|1510529182|
|6|1578945709|
--------------

我已经试过了 除了()、union() 或'left_anti' 加入 .不过好像 结构化流不支持此类操作 .

最佳答案

所以我通过 Spark 2.4.0 AddBatch 方法解决了这个问题,该方法将流式数据帧转换为迷你批量数据帧。但是对于<2.4.0的版本来说还是比较头疼的。

关于apache-spark - 如何在 Spark 结构化流中使用流数据帧更新静态数据帧,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53004818/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com