gpt4 book ai didi

Spark 中流数据与历史数据之间的连接

转载 作者:行者123 更新时间:2023-12-02 04:10:35 26 4
gpt4 key购买 nike

假设我有交易数据和访问数据

visit
| userId | Visit source | Timestamp |
| A | google ads | 1 |
| A | facebook ads | 2 |

transaction
| userId | total price | timestamp |
| A | 100 | 248384 |
| B | 200 | 43298739 |

我想加入交易数据和访问数据来做销售归因。我想在交易发生时实时进行(流式传输)。

使用 Spark 中的 join 函数在一个数据和非常大的历史数据之间进行连接是否可扩展?历史数据是访问,因为访问可以是任何时间(例如访问是交易发生前一年)

最佳答案

我在我的项目中加入了历史数据和流数据。这里的问题是你必须将历史数据缓存在RDD中,当流数据到来时,你可以进行join操作。但实际上这是一个漫长的过程。

如果你要更新历史数据,那么你必须保留两个副本,并使用累加器同时处理其中一个副本,这样就不会影响第二个副本。

例如,

transactionRDD 是您以某个时间间隔运行的流 rdd。VisitRDD 是历史记录,每天更新一次。所以你必须为visitRDD维护两个数据库。当您更新一个数据库时,transactionRDD可以使用visitRDD的缓存副本,并且当visitRDD更新时,您可以切换到该副本。其实这很复杂。

关于Spark 中流数据与历史数据之间的连接,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/29912092/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com