- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我对 impala 中的数据局部性有疑问,假设我有 10 个数据节点的集群(每个数据节点上都有 impalad),如果我在 impala 中执行查询 SELECT * FROM big_table where dt='2017' where blabla orderby blabla group by blabla
(可以说这是一个大查询)。
假设分区 (dt=2017') 下的文件位于 dn 1,3,5因此,如果我执行查询,协调器将仅使用守护进程 1、3、5 作为数据局部性,还是将使用所有守护进程,而其他守护进程将远程读取此数据?
最佳答案
对您问题的简短回答:它仅使用守护进程 1、3、5 作为数据局部性。
这通常是一个调度问题。 Impala 在 simple-scheduler.cc
中做出此类决定。
// We schedule greedily in this order:
// cached collocated replicas > collocated replicas > remote (cached or not) replicas.
如果有一个后端并置,Impala 将不会使用其他后端来扫描数据节点。对于没有扫描节点的片段,如分区聚合节点,impala 将它们放在与其输入片段所在的相同位置。
// there is no leftmost scan; we assign the same hosts as those of our
// leftmost input fragment (so that a partitioned aggregation fragment
// runs on the hosts that provide the input data)
关于cloudera - Impala 数据局部性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/42144834/
我看到这个链接影响 Impala version 1.1 : Since Impala 1.1, REFRESH statement only works for existing tables. F
Impala 是否重用 hive SQL 解析器? 我正在尝试编写一个自定义 Java 代码来检查我的应用程序中的查询正确性。我正在寻找一个可以使用 sql 查询的 api,并让我知道它在语法上对于
我正在使用 Impala JDBC 驱动程序(或者我猜它实际上是 Hive Server 2 JDBC 驱动程序)。我在另一个数据库中创建了一个 View ——我们称它为“store55”。 假设我的
如果我创建一个表,使用 Hive,在其中插入记录并首先在 Impala 中反射(reflect)同一个表,我必须运行 Invalidate Metadata,它反射(reflect)了执行程序上的元数
我如何以编程方式找到所有需要 INVALIDATE METADATA 语句的 Impala 表(因为它们是在 Hive 中创建的,但 Impala 尚不知道)或 REFRESH(因为列已添加、已添加数
with core as ( select t1.a, t1.b, t2.c from test_1 t1 join test_2 t2 on t1.a = t
对于Presto和Impala的区别,有没有专家能从这些角度给出一些简洁的回答? 基础架构设计 SQL 合规性 真实世界的延迟 任何 SPOF 或容错功能 结构化和非结构化数据使用场景表现 最佳答案
当我显示表格时,我在 Impala 中看到一个表格“测试”; 我想复制“test”表,使其完全相同,但命名为“test_copy”。我可以执行 impala 查询来执行此操作吗?如果没有,我该怎么做?
所有, 我是新手,很少尝试用例。 我在hdfs中有一个文件,想加载到impala表中。 -在hdfs上的文件位置:hdfs:// xxx / user / hive / warehouse / imp
由于未公开的原因,我的 Impala 没有安装 JDBC 驱动程序。这使得 connection from R to Impala具有挑战性的。 我能够通过 Putty 连接(和查询)到 Impala
在 impala 的官方文档中 here , statestore 组件有一条语句: If you issue a DDL statement while the statestore is down
Impala 确实支持 UDFs written in C++ or Java ,但我有一个由内置函数调用组成的简单公式。我需要在我的代码中使用很多次并且我不想重复它。 是否支持类似于以下伪代码的内容
我正在处理概念验证任务。任务是使用 Hadoop 技术实现我们产品的一项功能。 功能非常简单,我们有一个 UI,可让您插入有关“网络问题”的详细信息。有关此类问题的所有详细信息都被捕获并插入到 Ora
我们在产品上有 impala 服务器,我需要从本地 macbook w/mac os x (10.8) 使用 impala shell 连接到它。 我下载了Impala-cdh5.1.0-releas
我有两个 Java 中的 Hive UDF,它们可以工作在 Hive 中非常好。 这两个功能是互补的。 String myUDF(BigInt) BigInt myUDFReverso(String)
我在 Impala 中创建了一个外部表。我正在编写一个 shell 脚本,用于检查该表中是否存在特定的列。 我们可以使用以下查询在 MySql 中执行此操作。 SELECT * FROM inform
我是 Impala 的新手,我在 Impala 上做了一些测试用例。当我第二次调用时,我发现类似的 SQL 快得多。 例如: table1 = 4B 行 table2 = 5000 万行 第一次查询:
我对 impala 中的数据局部性有疑问,假设我有 10 个数据节点的集群(每个数据节点上都有 impalad),如果我在 impala 中执行查询 SELECT * FROM big_table w
Impala 中有没有一种方法可以确定 SHOW TABLES 返回的对象名称是否存在?对应于表或 View ,因为: 该语句只返回对象名称,不返回类型 SHOW CREATE VIEW只是 SHOW
我正在使用 Impala 并使用如下所示的某种模式从数据库中获取表列表。 假设我有一个数据库 bank , 该数据库下的表如下所示。 cust_profile cust_quarter1_transa
我是一名优秀的程序员,十分优秀!