gpt4 book ai didi

hadoop - 在 HIVE 中,在 4 列上连接 2 个表时什么能提供最佳性能?键列类型 String、Int 或 binary?

转载 作者:可可西里 更新时间:2023-11-01 16:42:27 25 4
gpt4 key购买 nike

我有一个大表 hive 。为了识别唯一记录,我需要检查 4 列,比方说 col_A、col_B、col_C 和 col_D。我使用这些列来识别更改的记录并覆盖 HIVE 表分区。

我正在尝试几种选择来做到这一点:1) 分别加入所有 4 列(这很慢)

2) 连接所有 4 个字段以创建一个键列(字符串类型)。

3) 使用步骤 2 并将字符串转换为二进制(加入二进制是否更快?)。

4) 使用散列函数创建 key 。 (当我在超过 10 亿条记录的 HIVE 中使用 HASH( ) 函数时,我得到了大约 100 万条重复项。)(输出类型为 Int)。

5) 使用HEX、MD5(字符串)、SHA1/2 或CR32 等其他函数构成 key 列。

你在你的项目中使用过类似的东西吗?是什么带来了更好的表现?还有其他更好的加入方式吗?

附言我已经使用了几个优化参数,例如:

SET hive.compute.query.using.stats=true;

SET hive.stats.fetch.column.stats=true;

SET hive.stats.fetch.partition.stats=true;

设置 hive.vectorized.execution.enabled = true;

设置 hive.auto.convert.join ;

设置 hive.auto.convert.join.noconditionaltask=false;

分析表 T 计算列的统计信息;

等...我的主要想法是了解在上述情况下加入表的最佳和最佳方式是什么。

col_A | col_B | col_C | col_D |纬度 |长

美国广播公司 | DF | qw | 2005-10-30 T 10:45 | 12.3256 | -50.2368

美国广播公司 | DF | qw | 2005-10-30 T 10:45 | 11.12478 | -54.23587

美国广播公司 | d | xx | 2005-10-30 T 10:45 | 15.3397 | -58.6982

最佳答案

注意事项:我这样说是基于文档、直觉、经验和部落知识。这是非常不科学的,我没有对此进行任何测试。

我认为二进制不一定比连接字符串快。因为,限制因素很可能是 i/o 和序列化。由于反序列化的成本较低,通常固定长度(例如 int 和 long)往往更快。

不过,您可以使用某些技术来提高联接的性能。如果它适合您的用例,您应该按连接键对表进行存储和排序。这将允许 Hive 执行 Sort-Merge-Bucket Map join,这往往比 reduce side hash join 更快。阅读Hive Join Optimization获取更多信息。

谓词下推和 Outer Join's 也有一些行为IMO 每个人都应该知道。

话虽如此,我不确定您用于识别“已更改”记录的用例是什么,但使用 Hive Streaming Data Ingest 可能适合您的用例相反,如果你想在你的记录上进行突变。

关于hadoop - 在 HIVE 中,在 4 列上连接 2 个表时什么能提供最佳性能?键列类型 String、Int 或 binary?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39540338/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com