gpt4 book ai didi

hadoop - 黑斑羚与 hive 。 Impala如何规避MapReduce?

转载 作者:行者123 更新时间:2023-12-02 22:05:54 26 4
gpt4 key购买 nike

Impala如何在查询处理中实现比Hive更低的延迟?

我正在经历http://impala.apache.org/overview.html,它说:

To avoid latency, Impala circumvents MapReduce to directly access the data through a specialized distributed query engine that is very similar to those found in commercial parallel RDBMSs. The result is order-of-magnitude faster performance than Hive, depending on the type of query and configuration.



Impala如何在没有MapReduce的情况下获取数据(就像在Hive中一样)?

我们能否说Impala更接近HBase,应该将其与HBase进行比较而不是与Hive进行比较?

编辑:

或者我们可以说,按照传统,Hive在MapReduce之上,并且需要较少的内存来工作,而Impala在内存中执行所有操作,因此,通过将数据已经缓存在内存中并根据请求进行操作,它需要更多的内存才能工作。 ?

最佳答案

刚读Impala Architecture and Components

Impala is a massively parallel processing (MPP) database engine. It consists of different daemon processes that run on specific hosts.... Impala is different from Hive and Pig because it uses its own daemons that are spread across the cluster for queries.



它通过在每个能够接受查询请求的节点上运行一个长时间运行的守护程序来规避MapReduce容器。没有像HiveServer2这样的处理请求的单点故障;所有impala引擎都能够立即响应查询请求,而不必排队MapReduce YARN容器。

但是,Impala确实依赖Hive Metastore服务,因为它只是用于将RDBMS中存储的元数据映射到Hadoop文件系统的有用服务。 Pig,Spark,PrestoDB和其他查询引擎也共享Hive Metastore,而无需通过HiveServer进行通信。

数据不在Impala中“已经缓存”。与Spark相似,您必须将数据读入很大一部分内存中才能快速进行操作。与Spark不同,守护程序和状态存储服务保持 Activity 状态以处理后续查询。

Impala可以查询HBase,但是在体系结构上并不相似,以我的经验,设计良好的HBase表比Impala的查询速度更快。 Impala可能更接近Kudu。

还值得一提的是,不建议再使用MapReduce Hive。 Tez和 Hortonworks states Hive LLAP is better than Impala更好,尽管正如您所引用的,它很大程度上“取决于查询和配置的类型”。

关于hadoop - 黑斑羚与 hive 。 Impala如何规避MapReduce?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/49838396/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com