gpt4 book ai didi

hadoop - hive.skewjoin.mapjoin.map.tasks 和 hive.skewjoin.mapjoin.min.split 的关系

转载 作者:可可西里 更新时间:2023-11-01 15:51:48 25 4
gpt4 key购买 nike

hive中有两个属性与skew join相关。

    <property>
<name>hive.skewjoin.mapjoin.map.tasks</name>
<value>10000</value>
<description>
Determine the number of map task used in the follow up map join job for a skew join.
It should be used together with hive.skewjoin.mapjoin.min.split to perform a fine grained control.
</description>
</property>
<property>
<name>hive.skewjoin.mapjoin.min.split</name>
<value>33554432</value>
<description>
Determine the number of map task at most used in the follow up map join job for a skew join by specifying
the minimum split size. It should be used together with hive.skewjoin.mapjoin.map.tasks to perform a fine grained control.
</description>
</property>

但是我仍然不明白这两者之间的关系是什么,因为hive.skewjoin.mapjoin.map.tasks定义了map任务的数量,而hive.skewjoin.mapjoin。 min.split 最后也定义了map任务的个数。

最佳答案

你正在阅读

tasks at most used... by specifying the minimum split size.

这意味着,它计算输入拆分的总大小,除以拆分大小属性,然后确定应创建多少个映射任务,创建的任务总数限制由另一个属性定义,这就是为什么它说“细粒度控制”

关于hadoop - hive.skewjoin.mapjoin.map.tasks 和 hive.skewjoin.mapjoin.min.split 的关系,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/48576248/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com