gpt4 book ai didi

sql - 在两个大数据流中查找客户条目的有效方法

转载 作者:可可西里 更新时间:2023-11-01 14:52:48 26 4
gpt4 key购买 nike

如果我有一个数据流每天给我 1000 万条记录(流 A),另一个数据流每天给我 10 亿条记录(流 B),查看数据是否重叠的有效方法是什么?

更具体地说,如果流 A 中有一位客户访问了一个网页,而同一位客户访问了流 B 中的另一个网页,我如何判断该客户访问了这两个网页?

我最初的想法是将记录放入关系数据库并进行连接,但我知道这样效率很低。

执行此操作的更有效方法是什么?我如何使用 Hadoop 或 Spark 等工具来做到这一点?

最佳答案

联接应该是处理此问题的有效方法。您应该对两个数据集进行排序,或者对 CustomerID 进行索引(并且索引将按 CustomerID 进行排序)。由于索引,SQL 引擎会知道这些集合是有序的,并且应该能够非常有效地进行连接。

如果您只查找 CustomerID 在两者中都存在的实例,它可能是一个 SQL 查询:

Select Distinct A.CustomerID 
From A
Inner Join B
on A.CustomerID = B.CustomerID

关于sql - 在两个大数据流中查找客户条目的有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35047939/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com