sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)-6ren

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)

转载作者：可可西里更新时间：2023-11-01 14:35:58

我的设置:运行 NixOS Linux 的 Google Cloud Platform 中的 4 节点集群(1 个主节点，3 个工作节点)。

我一直在使用 TPC-DS 工具包来生成数据和查询都是标准的。在较小的数据集/更简单的查询上，它们工作得很好。我从这里获取的查询:https://github.com/hortonworks/hive-testbench/tree/hdp3/sample-queries-tpcds

这是第一个，query1.sql :

WITH customer_total_return AS 
( 
         SELECT   sr_customer_sk AS ctr_customer_sk , 
                  sr_store_sk    AS ctr_store_sk , 
                  Sum(sr_fee)    AS ctr_total_return 
         FROM     store_returns , 
                  date_dim 
         WHERE    sr_returned_date_sk = d_date_sk 
         AND      d_year =2000 
         GROUP BY sr_customer_sk , 
                  sr_store_sk) 
SELECT   c_customer_id 
FROM     customer_total_return ctr1 , 
         store , 
         customer 
WHERE    ctr1.ctr_total_return > 
         ( 
                SELECT Avg(ctr_total_return)*1.2 
                FROM   customer_total_return ctr2 
                WHERE  ctr1.ctr_store_sk = ctr2.ctr_store_sk) 
AND      s_store_sk = ctr1.ctr_store_sk 
AND      s_state = 'NM' 
AND      ctr1.ctr_customer_sk = c_customer_sk 
ORDER BY c_customer_id limit 100;

起初我遇到的问题是根本无法成功运行它，遇到了 java.lang.OutOfMemoryError: Java heap space 。

我所做的是:

增加了 GCP 节点的能力(高达 7.5 gb 的 RAM 和双核 CPU)
在 Hive CLI 中设置这些变量:

set mapreduce.map.memory.mb=2048;
set mapreduce.map.java.opts=-Xmx1024m;
set mapreduce.reduce.memory.mb=4096;
set mapreduce.reduce.java.opts=-Xmxe3072m;
set mapred.child.java.opts=-Xmx1024m;

重新启动 hive

当涉及到 1 GB 的数据集时，此查询(与其他类似查询一起)有效。我用 htop 监测了情况，内存使用量不超过 2gb，而两个 CPU 内核几乎一直使用到 100%。

现在的问题是，当涉及到具有更大数据集的更复杂的查询时，错误又开始了:

查询运行了一整分钟左右，但以失败告终。完整的堆栈跟踪:

hive> with customer_total_return as
    > (select sr_customer_sk as ctr_customer_sk
    > ,sr_store_sk as ctr_store_sk
    > ,sum(SR_FEE) as ctr_total_return
    > from store_returns
    > ,date_dim
    > where sr_returned_date_sk = d_date_sk
    > and d_year =2000
    > group by sr_customer_sk
    > ,sr_store_sk)
    >  select c_customer_id
    > from customer_total_return ctr1
    > ,store
    > ,customer
    > where ctr1.ctr_total_return > (select avg(ctr_total_return)*1.2
    > from customer_total_return ctr2
    > where ctr1.ctr_store_sk = ctr2.ctr_store_sk)
    > and s_store_sk = ctr1.ctr_store_sk
    > and s_state = 'TN'
    > and ctr1.ctr_customer_sk = c_customer_sk
    > order by c_customer_id
    > limit 100;
No Stats for default@store_returns, Columns: sr_returned_date_sk, sr_fee, sr_store_sk, sr_customer_sk
No Stats for default@date_dim, Columns: d_date_sk, d_year
No Stats for default@store, Columns: s_state, s_store_sk
No Stats for default@customer, Columns: c_customer_sk, c_customer_id
Query ID = root_20190811164854_c253c67c-ef94-4351-b4d3-74ede4c5d990
Total jobs = 14
Stage-29 is selected by condition resolver.
Stage-1 is filtered out by condition resolver.
Stage-30 is selected by condition resolver.
Stage-10 is filtered out by condition resolver.
SLF4J: Found binding in [jar:file:/nix/store/jjm6636r99r0irqa03dc1za9gs2b4fx6-source/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/nix/store/q9jpwzbqbg8k8322q785xfavg0p0v18i-hadoop-3.1.1/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
Execution completed successfully
MapredLocal task succeeded
SLF4J: Found binding in [jar:file:/nix/store/jjm6636r99r0irqa03dc1za9gs2b4fx6-source/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/nix/store/q9jpwzbqbg8k8322q785xfavg0p0v18i-hadoop-3.1.1/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]
Execution completed successfully
MapredLocal task succeeded
Launching Job 3 out of 14
Number of reduce tasks is set to 0 since there's no reduce operator
Job running in-process (local Hadoop)
2019-08-11 16:49:19,415 Stage-20 map = 0%,  reduce = 0%
2019-08-11 16:49:22,418 Stage-20 map = 100%,  reduce = 0%
Ended Job = job_local404291246_0005
Launching Job 4 out of 14
Number of reduce tasks is set to 0 since there's no reduce operator
Job running in-process (local Hadoop)
2019-08-11 16:49:24,718 Stage-22 map = 0%,  reduce = 0%
2019-08-11 16:49:27,721 Stage-22 map = 100%,  reduce = 0%
Ended Job = job_local566999875_0006
Launching Job 5 out of 14
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2019-08-11 16:49:29,958 Stage-2 map = 0%,  reduce = 0%
2019-08-11 16:49:33,970 Stage-2 map = 100%,  reduce = 0%
2019-08-11 16:49:35,974 Stage-2 map = 100%,  reduce = 100%
Ended Job = job_local1440279093_0007
Launching Job 6 out of 14
Number of reduce tasks not specified. Estimated from input data size: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2019-08-11 16:49:37,235 Stage-11 map = 0%,  reduce = 0%
2019-08-11 16:49:40,421 Stage-11 map = 100%,  reduce = 0%
2019-08-11 16:49:42,424 Stage-11 map = 100%,  reduce = 100%
Ended Job = job_local1508103541_0008
SLF4J: Found binding in [jar:file:/nix/store/jjm6636r99r0irqa03dc1za9gs2b4fx6-source/lib/log4j-slf4j-impl-2.10.0.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: Found binding in [jar:file:/nix/store/q9jpwzbqbg8k8322q785xfavg0p0v18i-hadoop-3.1.1/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.
SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

2019-08-11 16:49:51 Dump the side-table for tag: 1 with group count: 21 into file: file:/tmp/root/3ab30b3b-380d-40f5-9f72-68788d998013/hive_2019-08-11_16-48-54_393_105456265244058313-1/-local-10019/HashTable-Stage-19/MapJoin-mapfile71--.hashtable
Execution completed successfully
MapredLocal task succeeded
Launching Job 7 out of 14
Number of reduce tasks is set to 0 since there's no reduce operator
Job running in-process (local Hadoop)
2019-08-11 16:49:53,956 Stage-19 map = 100%,  reduce = 0%
Ended Job = job_local2121921517_0009
Stage-26 is filtered out by condition resolver.
Stage-27 is selected by condition resolver.
Stage-4 is filtered out by condition resolver.

2019-08-11 16:50:01 Dump the side-table for tag: 0 with group count: 99162 into file: file:/tmp/root/3ab30b3b-380d-40f5-9f72-68788d998013/hive_2019-08-11_16-48-54_393_105456265244058313-1/-local-10017/HashTable-Stage-17/MapJoin-mapfile60--.hashtable
2019-08-11 16:50:02 Uploaded 1 File to: file:/tmp/root/3ab30b3b-380d-40f5-9f72-68788d998013/hive_2019-08-11_16-48-54_393_105456265244058313-1/-local-10017/HashTable-Stage-17/MapJoin-mapfile60--.hashtable (2832042 bytes)
Execution completed successfully
MapredLocal task succeeded
Launching Job 9 out of 14
Number of reduce tasks is set to 0 since there's no reduce operator
Job running in-process (local Hadoop)
2019-08-11 16:50:04,004 Stage-17 map = 0%,  reduce = 0%
2019-08-11 16:50:05,005 Stage-17 map = 100%,  reduce = 0%
Ended Job = job_local694362009_0010
Stage-24 is selected by condition resolver.
Stage-25 is filtered out by condition resolver.
Stage-5 is filtered out by condition resolver.

SLF4J: Found binding in [jar:file:/nix/store/q9jpwzbqbg8k8322q785xfavg0p0v18i-hadoop-3.1.1/share/hadoop/common/lib/slf4j-log4j12-1.7.25.jar!/org/slf4j/impl/StaticLoggerBinder.class]
2019-08-11 16:50:12 Starting to launch local task to process map join;  maximum memory = 239075328
Execution completed successfully
MapredLocal task succeeded
Launching Job 11 out of 14
Number of reduce tasks is set to 0 since there's no reduce operator
Job running in-process (local Hadoop)
2019-08-11 16:50:14,254 Stage-13 map = 100%,  reduce = 0%
Ended Job = job_local1812693452_0011
Launching Job 12 out of 14
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapreduce.job.reduces=<number>
Job running in-process (local Hadoop)
2019-08-11 16:50:15,481 Stage-6 map = 0%,  reduce = 0%
Ended Job = job_local920309638_0012 with errors
Error during job, obtaining debugging information...
FAILED: Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask
MapReduce Jobs Launched: 
Stage-Stage-20:  HDFS Read: 8662606197 HDFS Write: 0 SUCCESS
Stage-Stage-22:  HDFS Read: 9339349675 HDFS Write: 0 SUCCESS
Stage-Stage-2:  HDFS Read: 9409277766 HDFS Write: 0 SUCCESS
Stage-Stage-11:  HDFS Read: 9409277766 HDFS Write: 0 SUCCESS
Stage-Stage-19:  HDFS Read: 4704638883 HDFS Write: 0 SUCCESS
Stage-Stage-17:  HDFS Read: 4771516428 HDFS Write: 0 SUCCESS
Stage-Stage-13:  HDFS Read: 4771516428 HDFS Write: 0 SUCCESS
Stage-Stage-6:  HDFS Read: 0 HDFS Write: 0 FAIL
Total MapReduce CPU Time Spent: 0 msec

hive.log文件中的问题还是一样:

java.lang.Exception: java.lang.OutOfMemoryError: Java heap space

我意识到我的工作节点实际上并没有做任何事情(htop 显示它们处于空闲状态，而只有主节点在工作)即使在堆栈跟踪中:

Job running in-process (local Hadoop)

如何让 Hive 使用 HDFS 而不仅仅是本地 Hadoop？运行 hdfs dfs -df -h hdfs:<redacted>:9000/ 返回

Filesystem                   Size    Used  Available  Use%
hdfs://<redacted>:9000  88.5 G  34.3 G     35.2 G   39%

这是正确的，我有 3 个工作节点，每个节点有 30 GB 的磁盘。

最佳答案

java.lang.OutOfMemoryError: Java heap space 如果您试图在单台机器上推送过多数据，就会发生这种情况。

根据提供的查询，您可以尝试以下几件事:

将您的连接条件更改为显式(删除WHERE CLAUSE 并使用INNER/LEFT JOIN)。例如

FROM     customer_total_return ctr1 
         INNER JOIN store s
             ON ctr1.ctr_store_sk = s.s_store_sk
                AND s_state = 'NM'
         INNER JOIN customer c
             ON ctr1.ctr_customer_sk = c.c_customer_sk

检查以下字段之一的数据是否存在偏差:
1. store_returns -> sr_returned_date_sk
2. store_returns -> sr_store_sk
3. store_returns -> sr_customer_sk
4. 客户 -> c_customer_sk
5. 商店 -> s_store_sk

KEY 之一可能具有高百分比的值，这可能导致节点 1 过载(当数据量很大时)。

基本上，您正在尝试消除节点过载的可能原因。

如果有帮助，请告诉我。

关于sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57433675/

文章推荐： c++ - OpenGL 输出窗口立即缩小到 0 x 0 窗口

文章推荐： hadoop - HBase 分布式扫描器

文章推荐： linux - 设置 (Linux) Hadoop 集群

java.lang.OutOfMemoryError : OutOfMemoryError thrown while trying to throw OutOfMemoryError; no stack trace available 错误
我正在尝试将用户提供的经纬度值与数据库中的经纬度值进行比较。如果它们在彼此半径 15 公里内，则应更改 TextView 。但我面临以下错误，我的数据库包含值 source lat = 19.218
android - 如何修复尝试通过改造抛出 OutOfMemoryError 时抛出的 OutOfMemoryError
我在我的应用程序中使用改造来下载一些媒体文件，如视频、mp3、jpg、pdf 等。当我想下载一个 55MB 的 mp4 格式的大文件时，这是一个问题。当我想下载这个文件时，我收到这样的错误: OutO
java - (Android) 尝试抛出 OutOfMemoryError 时抛出 OutOfMemoryError
所以我正在创建一个 Android 应用程序，这段代码引发了 "Caused by: java.lang.OutOfMemoryError: OutOfMemoryError thrown while
android - 我在 Android 中得到 "OutOfMemoryError thrown while trying to throw OutOfMemoryError; no stack available"
直到昨天，我的应用程序运行良好，但我所做的是，由于某些原因，我不得不在 Android Studio 中打开具有不同工作空间的同一个应用程序。从那时起，当我尝试运行该应用程序时，我遇到了以下异常，所以
java - 如何解决 java.lang.OutOfMemoryError : Java heap space in the case when increasing the heap size will mean delayed OutOfMemoryError
我正在尝试构建一个应用程序，其中客户端将其屏幕发送到服务器，客户端仅在上次发送屏幕和最新捕获的屏幕之间存在差异时才发送其屏幕(以便该程序在网络)。服务器使用 JFrame 和 JLabel 来显示图像
python - Cupy OutOfMemoryError 尝试在内存映射模式下 cupy.load 较大尺寸的 .npy 文件时出现 Cupy OutOfMemoryError 错误，但 np.load 工作正常
我正在尝试使用内存映射模式在 cupy 中加载一些较大的 .npy 文件，但我不断遇到 OutOfMemoryError 。我认为，由于它是在内存映射模式下打开的，因此此操作不应该占用太多内存，因为
GradleWorkerMain OutOfMemoryError
我正在尝试对基于 ant 的(Netbeans RCP)项目进行分级并找到奇怪的分级行为。我用探查器做了一些观察，得到了下一个结果。环境配置 Gradle 1.9 Build time: 20
检索大量数据时的Android OutOfMemoryError
我有一个应用程序可以进行网络调用并检索 XML 数据。如果没有太多数据，下面的代码可以正常工作。 public class WebClient { private static final S
刷新数据时Android OutOfMemoryError
在我的应用程序中，我每 3 分钟刷新一次数据。如果应用程序可以工作几个小时，我会遇到这样的错误: java.lang.OutOfMemoryError at org.apache.http.util.
Android OutOfMemoryError :?
我在我的一个应用程序中偶尔收到 OutOfMemoryError: (Heap Size=49187KB, Allocated=41957KB)。我该怎么做才能诊断？ 01-09 10:32:02
java - 如何解决 OutOfMemoryError？
对于学校项目，我必须编写不同类型的算法。问题是，我得到了一个工作算法。但是我必须多次运行它，一段时间后它给了我以下错误: Exception in thread "main" java.lang.Ou
clojure - 惰性序列中的 OutOfMemoryError
这个问题在这里已经有了答案: 8年前关闭。 Possible Duplicate: Recursive function causing a stack overflow 完成示例惰性序列 here
java - OutOfMemoryError 即使有足够的可用内存
我收到 java.lang.OutOfMemoryError 错误，即使我还有足够的空闲 RAM。我进行的内存转储在 200MB 到 1GB 之间，而我的服务器有 24GB 的 RAM。我设置了 -X
java - 为什么没有 OutOfMemoryError
我不明白为什么这段代码没有OutOfMemoryError public static void main(String[] args) { Object[] ref = new Object
java - OutOfMemoryError java堆空间
我正在使用这个语句 //some code int a[][]=new int[5000000][5000000]; //some code 并使用命令运行它 java -mx512m Test 它给
java - 分配大于堆的数组时出现意外的 OutOfMemoryError
今天我在玩OOM错误，我发现了一些我自己无法解释的东西。我尝试分配一个比堆大的数组，期望 “请求的阵列大小超出 VM 限制”错误，但我得到一个“ Java 堆空间 ”错误。根据JDK 11 doc
xamarin - 加载图像时出现 OutOfMemoryError
我有一个显示图像的简单页面。来源是 URL var img = new Image (); var source = new UriImageSource { Uri =
java - 是否保证会抛出Java OutOfMemoryError
我有一个 Java Spring Boot 应用程序。它是一个非常大的应用程序，具有许多服务，并且可以执行大量任务。我尝试实现的新任务之一是从 Oracle DB 读取一些数据并通过 REST 将其发
Java在读取文件但同时使用流时避免java.lang.OutOfMemoryError
我正在尝试使用流读取一个非常大的文件，因此我需要并行流而不是每行迭代...我正在尝试如下: String cont = new String(Files.readAllBytes(Paths.get(
Java OutOfMemoryError 奇怪的行为
假设我们的最大内存为 256M，为什么这段代码可以工作: public static void main(String... args) { for (int i = 0; i < 2; i++)

可可西里

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

sql - Hive: java.lang.OutOfMemoryError: Java heap space and Job running in-process (local Hadoop)