gpt4 book ai didi

hadoop - Hive - 比较表之间的数据

转载 作者:可可西里 更新时间:2023-11-01 17:00:31 26 4
gpt4 key购买 nike

我需要比较具有相同列的 2 个外部表(A 和 A')之间的数据,我实际上制作了一些 sql 脚本来执行此操作,但不够高效和健壮。有没有办法用 UDAF 或外部工具来做到这一点?

这里有一个示例:

表A

+----+----+----+
| C1 | C2 | C3 |
+----+----+----+
| 01 | A | 02 |
| 02 | B | 03 |
| 03 | C | 04 |
+----+----+----+

表 A'

+----+----+----+
| C1 | C2 | C3 |
+----+----+----+
| 01 | B | 02 |
| 02 | B | 03 |
| 04 | D | 04 |
+----+----+----+

输出

+------+------+------+------+------+------+
| C1 | C2 | C3 | C1' | C2' | C3' |
+------+------+------+------+------+------+
| 01 | A | 02 | 01 | B | 02 |
| 03 | C | 04 | null | null | null |
| null | null | null | 04 | D | 04 |
+------+------+------+------+------+------+

最佳答案

有一种新工具可以比较数据。DiffTool ( https://dataq.io/ ) 是一种基于 UI 的数据比较工具,可用于 RDBMS、Hadoop (Hive) 或文本文件(CSV 和 JSON)等数据源。 DiffTool 根据键比较数据集,一些功能包括:

使用自定义过滤器控制数据量,使用 SQL 表达式转换列,使用分布式架构进行扩展的能力,并通过丰富的可视化直观地分析结果

关于hadoop - Hive - 比较表之间的数据,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24698396/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com