gpt4 book ai didi

apache-spark - 如何将 Spark 实时流与另一个流在其整个生命周期中收集的所有数据一起加入?

转载 作者:行者123 更新时间:2023-12-04 15:51:24 24 4
gpt4 key购买 nike

我有两个 Spark 流,第一个是与产品相关的数据:它们对供应商的价格、货币、它们的描述、供应商 ID。这些数据按类别丰富,通过对描述的分析和美元价格猜测。然后将它们保存在 Parquet 数据集中。

第二个流包含有关这些产品拍卖的数据,然后是出售它们的成本和日期。

鉴于产品今天可以到达第一个流并在一年内出售,我如何将第二个流与第一个流的 Parquet 数据集中包含的所有历史连接起来?

要明确的结果应该是每个价格范围的平均每日 yield ......

最佳答案

我使用 snappydata 找到了一个可能的解决方案,使用其可变数据帧:

https://www.snappydata.io/blog/how-mutable-dataframes-improve-join-performance-spark-sql

报告的示例与 claudio-dalicandro 描述的示例非常相似。

关于apache-spark - 如何将 Spark 实时流与另一个流在其整个生命周期中收集的所有数据一起加入?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48300019/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com