hadoop - 通过分区控制 Impala 中的数据局部性-6ren

hadoop - 通过分区控制 Impala 中的数据局部性

转载作者：可可西里更新时间：2023-11-01 14:42:03

26

4

如果在表创建时理想的数据位置或布局已知，我想避免 Impala 节点不必要地通过网络从其他节点请求数据。这对于“非加性”操作很有帮助，其中分区中的所有记录无论如何都需要在同一位置(节点)(例如百分位数)。

是否可以告诉 Impala 分区中的所有数据都应该始终位于任何 HDFS 副本的单个节点上？

在 Impala-SQL 中，我不确定“PARTITIONED BY”子句是否提供此功能。据我了解，Impala 将其分区分块到 HDFS 上的单独文件中，但 HDFS 不保证相关文件的共同定位，默认情况下也不 block (而是试图实现相反的目标)。

找到一些关于 Impala 对 HDFS 开发的影响的信息，但不清楚这些是否已经实现或仍在计划中:

http://www.slideshare.net/deview/aaron-myers-hdfs-impala(幻灯片 23-24)

提前感谢大家。

最佳答案

关于您提到的幻灯片(“Co-located block replicas”)- 它是关于在 Hadoop 2.1 中实现的 HDFS 功能 (HDFS-2576)。它提供了一个 Java API 来向 HDFS 提示 block 应该放置在哪里。

截至 2014 年，它还没有在 Impala 中使用，但它确实看起来像是为此奠定了一些基础 - 因为它会给 Impala 带来相当于在传统 MPP 数据库中指定分布键的性能。

关于hadoop - 通过分区控制 Impala 中的数据局部性，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/21797968/

26

4

0

文章推荐： javascript - 无法加载文件或程序集 'Noesis.Javascript.dll'

文章推荐： windows - FOR 循环内的 WHILE 循环批量

文章推荐： c - 如何在 Windows 上编译 Ruby C 扩展和链接 libcurl

LISP 局部/全局变量赋值
如果我们定义一个像这样的函数 (defun foo(x) (setf x somevalue)) x 定义为局部变量还是全局变量？使用 setf/q 将值设置为全局值。如果它是全局的，谁能告诉我如
c# - MVC3 局部 View
仍在学习 MVC3、EF。现在我正在连接到 MySql，但我相信这无关紧要。为简单起见，我决定为我的测试应用程序使用一个数据库，并且我包含了一个类别来区分数据。例如，我有一个新闻、事件、信息和页面类别
scope - 局部 C 指针变量
假设我定义了以下代码: int *func() { int *p=(int *)malloc(sizeof(int)); // memory is allocated from heap
PHP MVC，局部 View ？
我正在构建一个小型 PHP MVC，但我在一小部分编码方面碰壁了。我想我需要“局部 View ”，但我也许可以用现有代码实现一些东西。目前我的 Controller 是最简单的形式: 实例化一个对象
scope - 局部 C 指针变量
假设我定义了以下代码: int *func() { int *p=(int *)malloc(sizeof(int)); // memory is allocated from heap
python - 函数内函数中的未绑定(bind)局部
我有以下代码(用 Python 2.X 编写): def banana(x): def apple(stuff): x /= 10 return stuff -
c# - MVC 局部 View
我正在尝试重用一些代码，部分 View 似乎是使用 MVC 时执行此操作的最佳方式。我创建了一个继承自 IEnumerable 的局部 View (见下文)。 @model IEnumerable
c - 局部 const 变量将存储在哪里？
局部 const 变量将存储在哪里？我已经验证过，函数中使用 const 变量的每个位置都会被其值替换(如立即值寻址模式)。但如果指针被分配给它，那么它就会存储在堆栈中。在这里我不明白处理器如何知道其
Javascript 作用域变量(全局/局部)
我想将局部变量用作全局变量，有人告诉我这样做的方法是在函数外部创建变量，如下所示: var foo = null; function bar() {
css - Angular 局部 View
我正在处理一个很长的 Angular 表格。我想知道我是否可以将它分成许多不同的 View 并在主视图中引用它们中的每一个。 First Section
css - 局部 View 中的实例变量
我有一个导航栏，它是一个局部 View ，我需要在设计页面上呈现它，以便用户编辑他们的个人资料。事实上，我只有一个页面，但是添加执行帐户维护的路径搞乱了我的导航栏加载，因为实例变量不存在。无论如何，我
python - 为什么我的(局部)变量表现得像全局变量？
我没有用到全局变量，也从未明确定义过全局变量，但我的代码中似乎有一个。你能帮我把它做成本地的吗？ def algo(X): # randomized algorithm while len(X
python - 通过循环中的函数返回值更新多个(局部)变量
假设我有这个(当前无返回)函数: def codepoint_convert(text, offset): codepoint = text[offset] if codepoint
c# - 局部 View 和布局有什么区别？
我在我的项目中同时使用了局部 View 和布局概念，但我无法区分。但我的感觉是两者都在做同样的工作。任何人都可以通过示例说出有关局部 View 和布局的简要概念以及区别吗？最佳答案除了 Josh
c++ - 堆栈(局部)或全局变量？
使用全局变量会加快速度吗？在英特尔的体系结构软件开发人员手册(关于微处理器)中建议使用局部变量而不是全局变量。但是，请考虑以下代码: void process_tcp_packets(void) {
c# - 局部 View 中的不同模型
我有一个局部 View 使用的模型与我在其中呈现它的 View 不同。我不断收到错误消息。 The model item passed into the dictionary is of type '
c# - 局部 View 不刷新
我在 cshtml 页面上有一个局部 View ，如下所示:- @model MvcCommons.ViewModels.CompositeViewModel @{ ViewBag.Title = "
C 数组行为 - 全局/局部/动态
我在从 while 循环全局更新数组时遇到问题，如下所述。请注意，我只能使用 C 95 及之前版本的功能。任何帮助将不胜感激!满浆箱http://pastebin.com/ss6VgTCD 在我的程序
c# - 刷新 Json 局部 View
我想刷新 Json 局部 View 。我正在尝试使用这个: $('#example123').load('@Url.Action("Rejestracja", "Logowanie")'); 但不能正
jQuery Ajax 局部 View 只工作一次
我有一个 asp.net 页面，它返回我当前正在使用的选项卡中的部分 View 。我已经设置了所有 jQuery 并且可以正常工作。它工作一次并通过 ajax 返回一个局部 View .html(re

首页

博学

6Ren·AI

商城

hadoop - 通过分区控制 Impala 中的数据局部性