gpt4 book ai didi

hadoop - Hive 索引 mapreduce 内存错误

转载 作者:可可西里 更新时间:2023-11-01 15:13:22 25 4
gpt4 key购买 nike

我是 hive 和 hadoop 的新手,刚刚在 Hive 上创建了一个表(orc 文件格式)。我现在正在尝试在我的配置单元表(位图索引)上创建索引。每次我运行索引构建查询时,配置单元都会启动一个 map reduce 作业来索引。在某些时候,我的 map reduce 作业挂起,我的一个节点(在多次重试中随机不同,因此它可能不是节点)失败。我尝试将我的 mapreduce.child.java.opts 增加到 2048mb,但这给我带来了错误,因为使用的内存比可用内存多,所以我增加了 mapreduce.map.memory.mbmapreduce.reduce.memory.mb 到 8GB。所有其他配置保留为默认值。

对于我遗漏的配置,我们将不胜感激。

仅供引用,我正在尝试为一个包含 24 亿行的表编制索引,该表的大小为 450GB,具有 3 个分区。

最佳答案

首先,请确认索引是否适用于小规模数据。假设已完成,Hive 运行 map reduce 作业的方式取决于许多问题。1. 查询类型(使用 count(*) 或仅选择 *)。2. 此外,reducer 在执行阶段分配的内存量。(这由 hive.exec.reducers.bytes.per.reducer 属性控制)。

在您的照顾下,它可以是第二点。给出您运行程序的规模,请相应地计算内存需求。这post有更多信息。快乐学习和编码

关于hadoop - Hive 索引 mapreduce 内存错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30716917/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com