join - Hive Sort 合并桶加入-6ren

join - Hive Sort 合并桶加入

转载作者：行者123 更新时间：2023-12-04 00:06:39

25

4

Sort merge Bucket Join 与 Sort Merge Bucket 是否不同 map 加入？如果是这样，应该添加什么提示来启用 SMB 加入？ SMBM 加入如何优于 SMB 加入？

“set hive.auto.convert.sortmerge.join=true”这个提示是否足以满足SMB加入？否则，还应包括以下提示。

设置 hive.optimize.bucketmapjoin = true
设置 hive.optimize.bucketmapjoin.sortedmerge = true

我问的原因是，提示说 Bucket map join，但这里没有执行 MAP join。我假设 SMB 中涉及 map 和 reduce 任务，而 SMBM 中只涉及 map 任务。

如果我错了，请纠正我。

最佳答案

如果您的表很大(由“set hive.mapjoin.smalltable.filesize;”确定)，则无法进行 map 侧连接。除了你的表被分桶和排序，并且你打开了“set hive.optimize.bucketmapjoin.sortedmerge = true”，那么你仍然可以在大表上进行 map 侧连接。 (当然，你还是需要“set hive.optimize.bucketmapjoin = true”)

确保您的表确实在同一列上进行了分桶和排序。犯错太容易了。要获得分桶和排序的表，您需要

设置 hive.enforce.bucketing=true;

设置 hive.enforce.sorting=true;

DDL 脚本

CREATE table XXX
(
 id int,
 name string
)
CLUSTERED BY (id)
SORTED BY (id)
INTO XXX BUCKETS
;
INSERT OVERWRITE TABLE XXX
select * from XXX
CLUSTER BY member_id
;

使用 describe formatted XXX并寻找 Num Buckets, Bucket Columns, Sort Columns以确保正确设置。

桶连接的其他要求是两个表应该有

数据存储在相同的列上，并且它们用在 ON 子句中。

一个表的桶数必须是另一表的桶数的倍数。

如果您满足所有要求，则将执行 MAP 加入。它会快如闪电。

顺便说一下，对于 ORC 格式，Hive 1.X 并不很好地支持 SMB Map Join。你会得到一个 null exception .该错误已在 2.X 中修复。

关于join - Hive Sort 合并桶加入，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40428228/

25

4

0

文章推荐： php - 在yii2中通过ajax验证表单

文章推荐： python - 如何使用python从docx文件中提取超链接中的url

文章推荐： r - 在R中的行组中向前和向后进行最后一个因子观察

mysql - (A 加入 B) 加入 (C 加入 D)
我想对 JOIN 进行特定的排序 SELECT * FROM (lives_in as t1 NATURAL JOIN preferences p1) l1 JOIN (lives_in t2 NAT
mysql - 苦苦挣扎于查询、加入、加入
我正在努力解决一个查询。并想知道是否有人可以提供帮助。我有一个标签表(服务请求票)和序列号表从我的标签中我正在这样做 Select * from tag where tag.created BET
mysql - A 加入 B 与 B 加入 A
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 7 年前。 Improve this ques
Mysql查询(加入)
我有两个表 tbl_user 和 tbl_lastchangepassword，如下所示表 tbl_user id| name --------- 1 | user1 2 | user2 3 |
MySQL查询优化[加入]
我有下一个问题 SELECT i.*, gu.* vs.* FROM common.global_users gu LEFT JOIN common.global_users_perms gup ON
mysql新手——加入
我有一个电影表和一个投票表。用户为他们喜欢的电影投票。我需要显示按电影总票数降序排列的电影列表。我现在所拥有的有点作品。唯一的问题是它不显示 0 票的电影。 SELECT m.name, m.imdb
MySql 加入 BETWEEN
我有一个由这样的表组成的 mySql 数据库: 我如何(如果可能的话)使用 JOINS 从名称/周期表中获取结果？简单来说，它是如何工作的？我向菜鸟问题道歉。我对此很陌生。任何帮助将不胜感激。最佳答
SQL 自引用查询。加入
我需要查询单元先决条件的自引用关系。我知道您需要使用两个联接，我是否选择我的列然后将其联接到自身？ SELECT u.unit_code, u.name + ' is a prerequisi
LINQ - 加入 OR 条件
我有两个实体，用户和友谊，它们看起来像: public class User { public int UserId { get; set; } (..
sql - 加入 OR 的性能
假设我有两个表: Table A ProdID | PartNumber | Data... 1 | ABC-a | "Data A" 2 | (null) |
r - 加入/合并数据框内的两列
说我有这个数据， (df <- data.frame( col1 = c('My','Your','His','Thir'), col2 = c('Cat','Dog','Fish','Dog')))
php - 加入/合并两个数组
我有两个这样的数组，实际上这是从两个不同的服务器检索的 mysql 数据: $array1 = array ( 0 => array ( 'id' => 1, 'n
sqlite - 从不同的表中获取结果 - 加入
我的数据库中有以下表格 CREATE TABLE [author_details] ( [_id] INTEGER PRIMARY KEY AUTOINCREMENT NOT NULL, [name
LINQ 加入 Where 子句
我正在努力使用一个相当简单的 sql select 语句的 join/where 子句。我正在尝试从 tb1 中检索产品信息列表，其中 where 条件位于 tbl2 中，但这必须由三个不同的列连接
haskell - “加入”申请？
我正在寻找以下功能: Applicative f => f (f a) -> f a Hoogle给我看join : >:t join join :: Monad m => m (m a) -> m
javascript - 加入 Firebase
我有两个“表”，分别是 USER 和 CONGE。在表“CONGE”中，我插入了用户的 ID。但是我不知道如何根据用户的id显示用户的休假。我想根据id发布“Congé”。 { "conge"
elasticsearch - 加入/合并Elasticsearch结果
我们有一个具有(简化)结构的文档，如Elasticsearch所示: { _id: ..., patientId: 4711, text: "blue" } { _id: ..., patientId
sql - 加入/哪里概念
这两个sql语句有什么区别 a) 从 T1,T2 中选择 *，其中 T1.A=T2.A ； b) 从 T1,T2 中选择 *，其中 T2.A=T1.A ；在这两种情况下我得到相同的输出，这两种语句之
NHibernate HQL - 加入
我想做一个简单的连接，只是比较两个表中的 ID.. 我有我的组表，包含；身份证姓名等.. 我的 GroupMap 表包含；身份证组号元素编号我的查询采用 GroupMap.ItemID
python - 加入/合并具有相同列名的数据框的微妙问题
所以我有一组主要数据，如下所示: value_num code value_letter 1 CDX A 2 DEF B

首页

博学

6Ren·AI

商城

join - Hive Sort 合并桶加入