hadoop - 减少映射器和缩减器以在 Hive 中对非常大的表/ View 进行简单查询-6ren

hadoop - 减少映射器和缩减器以在 Hive 中对非常大的表/ View 进行简单查询

转载作者：可可西里更新时间：2023-11-01 15:20:39

26

4

我们在大约 5 TB 的表/ View 上运行一个简单的查询。我们正在执行 ETL，最后通过添加分区将数据添加到核心表中。

但是由于我们正在处理的数据量很大，查询产生了 4000 多个映射器和 1000 多个缩减器。查询也运行了 40 多分钟。

如何提高/降低资源利用率？

查询:

insert overwrite table dss.prblm_mtrc partition (LOAD_DT) select *, '2019-01-02' as LOAD_DT from dss.v_prblm_mtrc_stg_etl

最佳答案

使用静态分区，如果目标表中已经有很多分区，Hive 将在最终加载之前更快地扫描它们，另请参见:HIVE Dynamic Partitioning tips

insert overwrite table dss.prblm_mtrc partition (LOAD_DT='2019-01-02') select * from dss.v_prblm_mtrc_stg_etl

如果你的源表有太多小文件，尽量减少它们，使用concatenate for orc files或使用 merge during loading source table

使用矢量化、调整映射器和缩减器并行度:https://stackoverflow.com/a/48487306/2700344

set hive.vectorized.execution.enabled = true;
set hive.vectorized.execution.reduce.enabled = true;

所有矢量化设置都是 here .

如果你的目标表包含很多已经加载的分区，尝试关闭统计自动收集，这个设置可能会加速加载:

set hive.stats.autogather=false;

此外，如果您的源表是 orc 并且拆分计算花费的时间太长，请尝试以下设置:

hive.exec.orc.split.strategy=BI;

有关 ORC 策略的更多信息:ORC split strategy

关于hadoop - 减少映射器和缩减器以在 Hive 中对非常大的表/ View 进行简单查询，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/54097248/

26

4

0

文章推荐： http - ajax.microsoft.com 与 cdn 的无 cookie 域

文章推荐： regex - 配置单元查询 regexp_extract

view - Laravel View 无法调用子文件夹 View
我在尝试从子文件夹调用 View 时遇到一些错误。首先，这东西能用 Route::get('/', function() { return View::make('sample'); }); 但是当我
mvvm - 显示当前 View 模型中的另一个 View 并关闭 View 模型中的 View ？
我有另一个 View 设置，并准备好等待其viewmodel。我的RelayCommand到达我的“当前” View 模型。从当前的 View 模型显示新 View 的最佳方法是什么？我一直在阅读，
view - 如何共享从其他数据集中查询其他 View 的授权 BigQuery View ？
我有一个 bigquery View ，我想与数据分析师共享，以便他们可以通过 Data Studio 访问其数据。此共享 View 对另一个数据集中的私有(private) View 进行查询，而私
view - Jenkins - 将 View 移入 View
我有 3 个 View ，并希望将它们集成到一个 View 中，以便它们成为这一 View 中的子文件夹。我怎样才能做到这一点？还是我必须制作一个 View ，然后再次手动添加和配置这些 View
views - ouchdb View ，该 View 在数组字段中搜索作为键数组传入的值
我在沙发数据库中有一些文档，这些文档的字段是不同关联文档的ID数组: { associatedAssets: ["4c67f6241f4a0efb7dc2abc24a004dfe", "270f
wpf - 共同的共享 View 。 View + View 模型或用户控件？
我正在开发一个小实用程序 View ，它将嵌入到我们的几个应用程序中。它将位于一个公共(public)图书馆中。我应该将其作为 ViewModel 以及默认的 View 实现公开，还是作为具有固定
c# - 如果不同的 View 共享同一 View 模型，如何从 View 模型中选择 View
由于我的某些 View 具有相似的功能，因此我希望能够与每个 View 共享相同的 View 模型。我的想法是将 token 传递给viewmodel的构造函数，但这将导致代码中出现许多if和else
swift - View 旋转后移动 View ， View 中触摸位置错误
我有一个目标 View (蓝色 View 和红色 View 用于左上角位置)。我试图用手指移动这个 View 。如果 View 不旋转，一切都很好。但当我旋转 View 并移动时，第一次就很好了。但
android - 尝试在空对象引用上调用虚拟方法 'android.view.View android.view.View.getRootView()'
我收到这个错误， "Attempt to invoke virtual method 'android.view.View android.view.View.getRootView()' on a
wpf - 使用数据模板将 View 与 View 模型相关联时，如何动画化从一个 View 到另一个 View 的过渡
我将发布我目前拥有的源代码，然后解释我的问题。这是我希望过渡发生的窗口这是关联的 View 模型 public class MainViewModel {
iphone - self.view = someController.view 与 [self.view addSubview :someController. view]
我正在尝试找出我遇到的错误。最初，我的同事只是使用将 View 添加到 subview 中 [self.view addSubview:someController.view]; 来自当前ViewC
wpf - MVVM:所有 View 的一个 View 模型结构与每个 View 单独的 View 模型结构？
我是 MVVM 的新手，需要一些帮助。我的应用程序由许多不同的窗口组成，这些窗口显示允许用户编辑业务层中的数据的控件。目前，每次用户打开这些窗口之一的新实例时，都会从头开始创建一个 ViewMod
java - 尝试在空对象引用上调用虚拟方法 'android.view.View android.view.View.findViewById(int)'
我一直在寻找与我类似的问题以找到解决方案，但我真的找不到类似的东西。我试图使用 asynctask 类从解析中下载帖子数组，在获取帖子后，它应该在我的页面中设置帖子数组，并执行 setAdapter
java - EJB View (本地 View 、远程 View 、无接口(interface) View )的含义是什么
这个问题在这里已经有了答案: What is local/remote and no-interface view in EJB? (2 个答案) 关闭 9 年前。我以前理解它的意思是“接口(in
ios - 我如何在堆栈 View 中找到 View 的 super View /父 View Controller
希望这不会太困惑。我有一个主视图 Controller ( MainView )，在 View 底部有一个堆栈 View ，在堆栈 View 中我有三个 View 。在一个 View 中(我们称之为
iPhone 如何将 View Controller 的 View 添加到另一个 View Controller 的 View ？
我一直在想这个问题，我真的不知道如何正确地将一个 View Controller 管理的 View 添加到另一个 View Controller 的 View 中。这不起作用，因为 View 没有完
view - 是否有任何简单的方法可以将特定文件从一个 View 复制到另一个 View 中的 clearcase？
在明显的情况下，我必须将大量文件从一个 View 复制到另一个 View 。要复制的文件名将作为输入给出。有什么想法可以通过脚本实现吗？谢谢，日语最佳答案最简单的方法是使用 clearfsimp
jquery - 如何在完整日历中查找月 View 或周 View 或日 View
我正在使用完整日历。这里我的问题是，当单击上一个按钮或下一个按钮单击功能时，如何找到月 View 、周 View 或日 View 格式的完整日历。这里正在调用下一个和上一个按钮的自定义代码。因为使用这
sql - View 与索引 View 或物化 View 的区别
我对这两者感到困惑，并试图找出差异，但没有得到我正在寻找的特定内容。在哪里使用索引 View 而不是普通 View 。它们之间的一些重要区别。最佳答案关键的区别在于物化 View 很好，物化了
cocoa - 在单个自定义 View 中将一个 View 切换到另一个 View
我在一个 xib 中有一个 CustomView，在两个不同的 xib 中有两个不同的 View 。我想在一个 CustomeView 中依次显示这两个 View 。我有一个 NSView 对象，它连

首页

博学

6Ren·AI

商城

hadoop - 减少映射器和缩减器以在 Hive 中对非常大的表/ View 进行简单查询