gpt4 book ai didi

python - 在Hive数据库中匹配两个字段的最有效方法

转载 作者:行者123 更新时间:2023-12-02 22:00:37 24 4
gpt4 key购买 nike

我想基本上匹配两个数据库的电子邮件字段,其中一个表将电子邮件作为电子邮件数组,而另一个表则具有字符串字段,每个表都有数十亿条记录。因此效率非常重要。

我已经尝试制作一个python脚本,但是我认为使用我制作的脚本需要很长时间才能完成,该脚本的时间复杂度为 O(n ^ 2)。任何更好的python脚本都是非常欢迎的。

如果有人可以提出一种方法,那将非常有帮助。

最佳答案

我将首先尝试 push 这种逻辑发展,并尝试在两个 Realm 进行内部联接。您显然需要将它们转换为相同的字符串结构,但这可以在INNER JOIN语句本身中完成。由于Hive应该在整个群集中分布计算,因此它将尽可能高效。
如果发布表结构,则可以使用实际的Hive语句进行更新。

关于python - 在Hive数据库中匹配两个字段的最有效方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/57573107/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com