impala - impala是否在查询后缓存一些数据-6ren

impala - impala是否在查询后缓存一些数据

转载作者：行者123 更新时间：2023-12-04 00:37:34

31

4

我是 Impala 的新手，我在 Impala 上做了一些测试用例。当我第二次调用时，我发现类似的 SQL 快得多。

例如:

table1 = 4B 行
table2 = 5000 万行

第一次查询:select * from table1 where id in (select id from table2 where xxx < 10000)(20 秒)

第二次查询:select * from table1 where id in (select id from table2 where xxx < 9999)(10 秒)

第三次查询:select * from table1 where id in (select id from table2 where xxx < 100)(1 秒)

我猜 Impala 做了一些特殊的缓存，谁能告诉我它的原因？

谢谢。

最佳答案

Impala 使用操作系统的缓存和额外的 HDFS 缓存。

摘自 Using HDFS Caching with Impala :

“Linux 操作系统缓存 [...] 仅将最近使用的数据保留在内存中。从 HDFS 缓存读取的数据避免了使用 Linux 操作系统缓存中的数据时涉及的校验和和内存到内存复制的开销”

这可以解释您的第一个查询和第二个查询之间的执行时间差异。但是，您的第三个查询比前两个查询快得多的原因可能不是(仅)缓存，而是它只查询大约 1/100 的数据(假设 xxx 均匀分布)这一事实。

关于impala - impala是否在查询后缓存一些数据，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39244021/

31

4

0

文章推荐： variables - 声明变量内存泄漏

文章推荐： gridview - 如何更改 yii2 中所有 gridview 的标题颜色？

文章推荐： common-lisp - 在 Slime Load 上，从 Cl-USER 更改默认包

文章推荐： python - CMD 自动完成无法正常工作

impala - Impala 中无效元数据和刷新命令之间的区别？
我看到这个链接影响 Impala version 1.1 : Since Impala 1.1, REFRESH statement only works for existing tables. F
impala - 如何访问 Impala 解析器
Impala 是否重用 hive SQL 解析器？我正在尝试编写一个自定义 Java 代码来检查我的应用程序中的查询正确性。我正在寻找一个可以使用 sql 查询的 api，并让我知道它在语法上对于
impala - 使用 Impala JDBC 驱动程序指定非默认数据库
我正在使用 Impala JDBC 驱动程序(或者我猜它实际上是 Hive Server 2 JDBC 驱动程序)。我在另一个数据库中创建了一个 View ——我们称它为“store55”。假设我的
impala - 如果无效元数据可以做同样的事情，为什么需要在 Impala 中刷新
如果我创建一个表，使用 Hive，在其中插入记录并首先在 Impala 中反射(reflect)同一个表，我必须运行 Invalidate Metadata，它反射(reflect)了执行程序上的元数
impala - 列出需要失效/刷新的 Impala 表
我如何以编程方式找到所有需要 INVALIDATE METADATA 语句的 Impala 表(因为它们是在 Hive 中创建的，但 Impala 尚不知道)或 REFRESH(因为列已添加、已添加数
impala - impala 的 view 或 with 子句是否只计算一次并在查询中多次使用？
with core as ( select t1.a, t1.b, t2.c from test_1 t1 join test_2 t2 on t1.a = t
impala - Presto 和 Impala 之间的基本架构、SQL 合规性和数据使用场景差异是什么？
对于Presto和Impala的区别，有没有专家能从这些角度给出一些简洁的回答？基础架构设计 SQL 合规性真实世界的延迟任何 SPOF 或容错功能结构化和非结构化数据使用场景表现最佳答案
cloudera - 如何使用 impala-shell 或其他方式复制 cloudera impala 表？
当我显示表格时，我在 Impala 中看到一个表格“测试”；我想复制“test”表，使其完全相同，但命名为“test_copy”。我可以执行 impala 查询来执行此操作吗？如果没有，我该怎么做？
hadoop - Impala:使用load inpath加载数据时出错:AccessControlException:粘滞位拒绝了权限:user = impala
所有，我是新手，很少尝试用例。我在hdfs中有一个文件，想加载到impala表中。 -在hdfs上的文件位置:hdfs:// xxx / user / hive / warehouse / imp
r - 在没有 Impala JDBC 驱动程序的情况下从 R 连接到 Impala
由于未公开的原因，我的 Impala 没有安装 JDBC 驱动程序。这使得 connection from R to Impala具有挑战性的。我能够通过 Putty 连接(和查询)到 Impala
hadoop - 如果在 impala statestore 关闭时执行 DDL，为什么 Impala 查询会失败？
在 impala 的官方文档中 here , statestore 组件有一条语句: If you issue a DDL statement while the statestore is down
hadoop - Impala 是否支持用 Impala SQL(不是 C++ 或 Java)编写的用户定义函数？
Impala 确实支持 UDFs written in C++ or Java ，但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。是否支持类似于以下伪代码的内容
hadoop - 使用什么.. HDFS 上的 Impala 或 Hbase 上的 Impala 或只是 Hbase？
我正在处理概念验证任务。任务是使用 Hadoop 技术实现我们产品的一项功能。功能非常简单，我们有一个 UI，可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到 Ora
macos - 在 mac os x 上安装 cloudera impala shell 并连接到 impala 集群
我们在产品上有 impala 服务器，我需要从本地 macbook w/mac os x (10.8) 使用 impala shell 连接到它。我下载了Impala-cdh5.1.0-releas
hadoop - 在 Impala 中使用 Hive UDF 在 Impala 1.2.4 中给出错误结果
我有两个 Java 中的 Hive UDF，它们可以工作在 Hive 中非常好。这两个功能是互补的。 String myUDF(BigInt) BigInt myUDFReverso(String)
impala - 如何检查Impala表中是否存在列？
我在 Impala 中创建了一个外部表。我正在编写一个 shell 脚本，用于检查该表中是否存在特定的列。我们可以使用以下查询在 MySql 中执行此操作。 SELECT * FROM inform
impala - impala是否在查询后缓存一些数据
我是 Impala 的新手，我在 Impala 上做了一些测试用例。当我第二次调用时，我发现类似的 SQL 快得多。例如: table1 = 4B 行 table2 = 5000 万行第一次查询:
cloudera - Impala 数据局部性
我对 impala 中的数据局部性有疑问，假设我有 10 个数据节点的集群(每个数据节点上都有 impalad)，如果我在 impala 中执行查询 SELECT * FROM big_table w
impala - 如何判断一个Impala对象的名字对应一个 View
Impala 中有没有一种方法可以确定 SHOW TABLES 返回的对象名称是否存在？对应于表或 View ，因为: 该语句只返回对象名称，不返回类型 SHOW CREATE VIEW只是 SHOW
hive - Impala:像查询一样显示表
我正在使用 Impala 并使用如下所示的某种模式从数据库中获取表列表。假设我有一个数据库 bank , 该数据库下的表如下所示。 cust_profile cust_quarter1_transa

首页

博学

6Ren·AI

商城

impala - impala是否在查询后缓存一些数据