hadoop - 黑斑羚与 hive 。 Impala如何规避MapReduce？-6ren

hadoop - 黑斑羚与 hive 。 Impala如何规避MapReduce？

转载作者：行者123 更新时间：2023-12-02 22:05:54

26

4

Impala如何在查询处理中实现比Hive更低的延迟？

我正在经历http://impala.apache.org/overview.html，它说:

To avoid latency, Impala circumvents MapReduce to directly access the data through a specialized distributed query engine that is very similar to those found in commercial parallel RDBMSs. The result is order-of-magnitude faster performance than Hive, depending on the type of query and configuration.

Impala如何在没有MapReduce的情况下获取数据(就像在Hive中一样)？

我们能否说Impala更接近HBase，应该将其与HBase进行比较而不是与Hive进行比较？

编辑:

或者我们可以说，按照传统，Hive在MapReduce之上，并且需要较少的内存来工作，而Impala在内存中执行所有操作，因此，通过将数据已经缓存在内存中并根据请求进行操作，它需要更多的内存才能工作。？

最佳答案

刚读Impala Architecture and Components

Impala is a massively parallel processing (MPP) database engine. It consists of different daemon processes that run on specific hosts.... Impala is different from Hive and Pig because it uses its own daemons that are spread across the cluster for queries.

它通过在每个能够接受查询请求的节点上运行一个长时间运行的守护程序来规避MapReduce容器。没有像HiveServer2这样的处理请求的单点故障；所有impala引擎都能够立即响应查询请求，而不必排队MapReduce YARN容器。

但是，Impala确实依赖Hive Metastore服务，因为它只是用于将RDBMS中存储的元数据映射到Hadoop文件系统的有用服务。 Pig，Spark，PrestoDB和其他查询引擎也共享Hive Metastore，而无需通过HiveServer进行通信。

数据不在Impala中“已经缓存”。与Spark相似，您必须将数据读入很大一部分内存中才能快速进行操作。与Spark不同，守护程序和状态存储服务保持 Activity 状态以处理后续查询。

Impala可以查询HBase，但是在体系结构上并不相似，以我的经验，设计良好的HBase表比Impala的查询速度更快。 Impala可能更接近Kudu。

还值得一提的是，不建议再使用MapReduce Hive。 Tez和 Hortonworks states Hive LLAP is better than Impala更好，尽管正如您所引用的，它很大程度上“取决于查询和配置的类型”。

关于hadoop - 黑斑羚与 hive 。 Impala如何规避MapReduce？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/49838396/

26

4

0

文章推荐： java - 迭代器不允许使用 reducer

文章推荐： sql-server - 插入时输出插入和表值

文章推荐： coldfusion - ColdFusion 9 标准版获取正在运行的请求列表

文章推荐： jdbc - Hadoop hive 问题

javascript - 规避 JavaScript 中的运算符优先级
假设我有一个像这样的字符串:'1 + 2 + 3 * 4' 是否可以从左到右(顺序？线性？)计算它，使其等于 24 而不 15？我事先不知道该字符串是什么，所以它可能是“1 + 2”，也可能是“1
jquery - 规避 ID 中的随机数
我在脚本中得到了这一行，它检查项目类: $('#post').attr('class'); 有没有机会，读起来像: $('#post*').attr('class'); 所以如果 ID 是 fe。 p
c++ - 规避 ld 查找
将我的工具链安装在与其供应商要求的目录不同的目录中后，我一直在运行一些较小的问题，通过适本地设置 COMPILER_PATH、C_INCLUDE_PATH、CPLUS_INCLUDE_PATH 和 L
c++ - 规避 C++ 空终止字符串的挫败感
我正在使用 boost::program_options，它与许多其他 C++ 库一样受到同样的困扰，甚至是 std 本身:它仍然使用 C 风格的空终止字符串，因为没有人真正喜欢弱 std::字符串.
scheme - 规避 SCHEME 中的 EVAL
Peter Norvig 在 PAIP 中说道: in modern lisps...eval is used less often (in fact, in Scheme there isno ev
Python - 规避 argparse nargs 错误
我有一个这样工作的程序: prog.py filename -r 使用我给定的默认默认值 prog.py filename -r 0 500 20 使用 0、500 和 20 我已经成功地使用了: c
java - 规避 BufferedImage 的数组大小 > Integer.MAX_VALUE？
我正在使用 Java 程序进行一些图像处理，目前我正在处理一些相当大的图像(大约十亿像素)。毫不奇怪，由于以下异常，我无法做很多事情: Exception: java.lang.IllegalArg
python - 使用 Scrapy 规避 Steam 年龄检查
所以我想用Scrapy做一个steam游戏的刷屏器。我不知道为什么有些游戏没有显示在结果 csv/json 中。我认为这是因为年龄验证表。我真的很想看看问题出在哪里......但一切似乎都应该有效。
javascript - 使用 jQuery 规避 tabindex 问题
我正在尝试控制我的表单以及用户如何通过表单元素的 tabindex 属性与它们交互。我的所有元素都指定了 tabindex，我希望这个值得到尊重并得到正确使用。我目前正在 Mac/Firefox 上
rust - 如何在 Rust 中处理/规避 "Cannot assign to ... which is behind a & reference"？
我将实现一个简单的链表。这是我到目前为止的(工作)代码: pub struct LinkedList { start: Option>>, } impl LinkedList { pu
css - 使用 Asset Pipeline 规避 IE8 CSS 文件数限制
我遇到了 IE8 的 31 个 CSS 文件限制。我在想，除非我弄错了，否则 Assets 管道会结合我的 CSS 文件进行生产，因此这不会成为问题。然而，当我为 IE 调试时，这是一个问题。有没
c - 我如何应对/创建/规避 Yacc/Bison 中处理多个 %types 的规则？
我正在尝试在 Yacc/Bison 中创建一个 LALR(1) 解析器，它可以接受具有灵活语法的命令。一个例子是通过调整室温( float )、 window 位置(整数)和吊扇(枚举)来控制房屋中的
javascript - 规避 ERROR Converting circular structure to JSON when doing JSON.stringify()?
为了调试，我想用 JSON.stringify(myobject) 序列化 javascript 对象。但这给出了: TypeError: Converting circular structure
c - 如何使用 GCC 规避 "attempt to use poisoned malloc/calloc"错误？
我正在使用交叉 musl 编译器(相同版本)构建 native musl 编译器 (GCC 8.3.0)，但出现此错误: In file included from /usr/local/x86_64

首页

博学

6Ren·AI

商城

hadoop - 黑斑羚与 hive 。 Impala如何规避MapReduce？