gpt4 book ai didi

hadoop - 并置连接 (a-la-netezza) 理论上在配置单元中是否可行?

转载 作者:可可西里 更新时间:2023-11-01 14:59:53 26 4
gpt4 key购买 nike

当您连接分布在同一键上的表并在连接条件中使用这些键列时,netezza 中的每个 SPU(机器)都 100% 独立工作(参见 nz-interview )。

在 hive 中,有bucketed map join ,但是代表表的文件分发到datanode是HDFS的职责,不是按照hive CLUSTERED BY key做的!

所以假设我有 2 个表,按相同的键聚集,并且我通过该键加入 - hive 能否从 HDFS 获得匹配的桶将位于同一节点上的保证?或者它是否总是必须将小表的匹配桶移动到包含大表桶的数据节点?

谢谢你

(注意:这是对我之前问题的更好措辞:How does hive/hadoop assures that each mapper works on data that is local for it?)

最佳答案

我认为告诉 HDFS 在哪里存储数据 block 是不可能的。
我可以考虑以下技巧,它适用于小型集群 - 将其中一个表的复制因子增加到接近或等于集群中节点数的数量。
因此 - 在加入过程中,适当的数据几乎总是(或总是)出现在所需的节点上。

关于hadoop - 并置连接 (a-la-netezza) 理论上在配置单元中是否可行?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/6953383/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com