gpt4 book ai didi

cloudera - Impala 数据局部性

转载 作者:行者123 更新时间:2023-12-05 07:45:09 28 4
gpt4 key购买 nike

我对 impala 中的数据局部性有疑问,假设我有 10 个数据节点的集群(每个数据节点上都有 impalad),如果我在 impala 中执行查询 SELECT * FROM big_table where dt='2017' where blabla orderby blabla group by blabla(可以说这是一个大查询)。

假设分区 (dt=2017') 下的文件位于 dn 1,3,5因此,如果我执行查询,协调器将仅使用守护进程 1、3、5 作为数据局部性,还是将使用所有守护进程,而其他守护进程将远程读取此数据?

最佳答案

对您问题的简短回答:它仅使用守护进程 1、3、5 作为数据局部性。

这通常是一个调度问题。 Impala 在 simple-scheduler.cc 中做出此类决定。

// We schedule greedily in this order:
// cached collocated replicas > collocated replicas > remote (cached or not) replicas.

如果有一个后端并置,Impala 将不会使用其他后端来扫描数据节点。对于没有扫描节点的片段,如分区聚合节点,impala 将它们放在与其输入片段所在的相同位置。

  // there is no leftmost scan; we assign the same hosts as those of our
// leftmost input fragment (so that a partitioned aggregation fragment
// runs on the hosts that provide the input data)

关于cloudera - Impala 数据局部性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42144834/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com