apache-spark - 具有 32GB 或更多内存的 spark worker 遇到 fatal error-6ren

apache-spark - 具有 32GB 或更多内存的 spark worker 遇到 fatal error

转载作者：IT王子更新时间：2023-10-28 23:37:58

31

4

我在一个独立的 Spark 集群中有三个从站。每个从站有 48GB 的 RAM。当我为我的执行程序分配超过 31GB(例如 32GB 或更多)的 RAM 时:

.config("spark.executor.memory", "44g")

在两个大型 Dataframe 的连接过程中，执行程序在没有太多信息的情况下被终止。 Slave 驱动程序的输出消息显示“缺少 shuffle 的输出位置”:

17/09/21 12:34:18 INFO StandaloneSchedulerBackend: Granted executor ID app-20170921123240-0000/3 on hostPort XXX.XXX.XXX.92:33705 with 6 cores, 44.0 GB RAM
17/09/21 12:34:18 WARN TaskSetManager: Lost task 14.0 in stage 7.0 (TID 124, XXX.XXX.XXX.92, executor 0): ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
17/09/21 12:34:18 WARN TaskSetManager: Lost task 5.0 in stage 7.0 (TID 115, XXX.XXX.XXX.92, executor 0): ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
17/09/21 12:34:18 WARN TaskSetManager: Lost task 17.0 in stage 7.0 (TID 127, XXX.XXX.XXX.92, executor 0): ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
17/09/21 12:34:18 WARN TaskSetManager: Lost task 8.0 in stage 7.0 (TID 118, XXX.XXX.XXX.92, executor 0): ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
17/09/21 12:34:18 WARN TaskSetManager: Lost task 2.0 in stage 7.0 (TID 112, XXX.XXX.XXX.92, executor 0): ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
17/09/21 12:34:18 WARN TaskSetManager: Lost task 11.0 in stage 7.0 (TID 121, XXX.XXX.XXX.92, executor 0): ExecutorLostFailure (executor 0 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
17/09/21 12:34:18 INFO DAGScheduler: Executor lost: 0 (epoch 5)
17/09/21 12:34:18 INFO BlockManagerMaster: Removal of executor 0 requested
17/09/21 12:34:18 INFO CoarseGrainedSchedulerBackend$DriverEndpoint: Asked to remove non-existent executor 0
17/09/21 12:34:18 INFO BlockManagerMasterEndpoint: Trying to remove executor 0 from BlockManagerMaster.
17/09/21 12:34:18 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_10_2 !
17/09/21 12:34:18 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_10_11 !
17/09/21 12:34:18 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170921123240-0000/3 is now RUNNING
17/09/21 12:34:18 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_10_5 !
17/09/21 12:34:18 WARN BlockManagerMasterEndpoint: No more replicas available for rdd_10_8 !
17/09/21 12:34:18 INFO BlockManagerMasterEndpoint: Removing block manager BlockManagerId(0, XXX.XXX.XXX, 34840, None)
17/09/21 12:34:18 INFO BlockManagerMasterEndpoint: Trying to remove executor 0 from BlockManagerMaster.
17/09/21 12:34:18 INFO BlockManagerMaster: Removed 0 successfully in removeExecutor

Spark Master 的日志信息显示执行器已“EXITED”，然后重新启动:

17/09/21 12:34:18 INFO Master: Removing executor app-20170921123240-0000/0 because it is EXITED
17/09/21 12:34:18 INFO Master: Launching executor app-20170921123240-0000/3 on worker worker-20170921123014-152.83.247.92-33705

Spark Worker 的日志信息显示执行器以代码 134 退出

17/09/21 12:34:18 INFO Worker: Executor app-20170921123240-0000/0 finished with state EXITED message Command exited with code 134 exitStatus 134

唯一的线索似乎是在应用程序的错误日志中，显示 JRE 检测到了一个 fatal error :

#
# A fatal error has been detected by the Java Runtime Environment:
#
#  SIGSEGV (0xb) at pc=0x00007fdec0c92a73, pid=11300, tid=0x00007fd3a6951700
#
# JRE version: Java(TM) SE Runtime Environment (8.0_131-b11) (build 1.8.0_131-b11)
# Java VM: Java HotSpot(TM) 64-Bit Server VM (25.131-b11 mixed mode linux-amd64 )
# Problematic frame:
# V  [libjvm.so+0x3ffa73]  CardTableExtension::scavenge_contents_parallel(ObjectStartArray*, MutableSpace*, HeapWord*, PSPromotionManager*, unsigned int, unsigned int)+0x5e3
#
# Failed to write core dump. Core dumps have been disabled. To enable core dumping, try "ulimit -c unlimited" before starting Java again
#
# If you would like to submit a bug report, please visit:
#   http://bugreport.java.com/bugreport/crash.jsp
#

---------------  T H R E A D  ---------------

Current thread (0x0000000001c9e800):  GCTaskThread [stack: 0x00007fd3a6851000,0x00007fd3a6952000] [id=11308]

siginfo: si_signo: 11 (SIGSEGV), si_code: 1 (SEGV_MAPERR), si_addr: 0x0000000000000008

只要我为每个执行程序分配 31GB 的 RAM(或更少)，我的程序就可以正常工作。有没有人遇到过这样的问题？

最佳答案

由于 Java 存储对象引用的方式，44 GB 实际上可能给您提供比 31 GB 更小的可用堆:对于超过 32 GB 的堆大小，JVM 必须切换到 64 位对象引用，这意味着所有对象都会占用更多空间。更多详情:http://java-performance.info/over-32g-heap-java/

我的经验法则是保持在 32 GB 以下或更高(例如 50 GB)。通常使用多个 JVM 的成本效益更高，每个 JVM 的堆小于 32 GB。使用 48 GB RAM，我会坚持使用 31 GB 堆。

关于apache-spark - 具有 32GB 或更多内存的 spark worker 遇到 fatal error ，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/46335250/

31

4

0

文章推荐： android - Espresso 如何等待一段时间(1 小时)？

文章推荐： java - 当我尝试记录网络响应时，OKHttp 抛出非法状态异常

文章推荐： arrays - MATLAB迭代添加数组元素: time behavior

c# - 遇到 if-then 语句逻辑问题
我对 c# 有点陌生，我在尝试围绕这个 if-then 语句尝试实现时遇到了一些麻烦。这是我的目标:当用户将订单输入系统时，将为每个订单创建一个唯一的 orderID。但是，一些附加功能是用户可以选
c++ - 遇到 STATUS_STACK_BUFFER_OVERRUN
我已经搜索了这个特定的错误，发现根本问题涉及循环计数错误并导致程序超出数组的界限。但是，当我将每个数组降低到数组开始丢失输出数据的程度后，它继续抛出相同的错误。我对 C/C++ 仍然是新手，但任何对
c++ - 遇到 while 循环问题
我不明白为什么我运行这个小程序时屏幕上没有任何显示？ while 循环甚至开始了吗？ #include #include int main() { char word[20]; char
perl - 遇到 Perl 依赖问题
我接手了一个用 Perl 编写的项目，它有一些依赖项，例如 Template::Toolkit , Image::ExifTool , 和 GD仅举几例。目前，这些依赖项使用 --prefix 构建到
r - 遇到 0 时重置的累积和
我想对一个字段进行累积总和，但只要遇到 0 就重置聚合值。这是我想要的一个例子: data.frame(campaign = letters[1:4] , date=c("jan","
gradle - 遇到 gradle 构建问题
不久前，该项目的 gradle 构建运行良好，但现在一直失败并显示以下错误(带有 --info 标志的输出): Starting process 'Gradle Test Executor 1'. W
java - 遇到 || 问题和＆＆
我是编程新手，想用 Java 制作一个掷骰子程序来执行。代码如下: import java.math.*; public class Dices { public static int dice1=0
java - 遇到 Java 数组索引错误
这个问题已经有答案了: What is a StringIndexOutOfBoundsException? How can I fix it? (1 个回答) 已关闭 5 年前。我对 Java 完
java - 为什么我收到 SQLSyntaxErrorException -遇到 ""？
这个方法一直抛出标题中的异常，我找不到原因，我已经通过连接创建了其他表，并且所有引用的表都已创建。我正在使用嵌入式JavaDB . private void createEvidenceTable()
python - 遇到 "NameError"问题
我刚开始上课，这是我第三次尝试上课。我遇到了一个 NameError，我真的不知道如何解决。看看我的程序，看看你能不能帮忙。 import random import math import pyga
java - 遇到 jpanels 变得可见的困境
好吧，这是我的困境，我向 JFrame 添加了三个面板。第一个(不可见)第二个(可见)和第三个(不可见)..我使用第一个面板作为菜单，当您选择一个选项时，第一个面板被制作(可见)，然后第三个面板被制作
c++ - 遇到 if/else 问题
我的部分代码遇到问题。如果我选择选项 A，它会运行并给我正确的答案，但是，如果我选择选项 S 或 M，它不会给我任何结果，只会去到它应该去的地方。已经尝试将 if 更改为 else if，但它显示“预
c - 遇到 fscanf 文件指针错误问题
我这里有一些代码，但我正在努力解决它，因为我似乎无法掌握这个文件指针的东西。我对使用文件还很陌生。我见过类似的其他问题，并且尝试了对其他人有效的解决方案，但由于某种原因它们对我不起作用。这是出现问题的
java - 遇到 Sonar 错误时如何处理TODO注释
我们有一个很大的应用程序，我们已经将 TODO 规则添加到质量门中，如果发现 TODO 注释，它会给出错误。如果我们只是删除 TODO 注释(这很可怕)，它会起作用，但添加 TODO 注释的整个目的就
javascript - 遇到 if/else 语句的问题
我正在尝试编写一个名为 isVowel 的函数，它接受一个字符(即长度为 1 的字符串)并在它是元音、大写或小写时返回“true”。如果该字符不是元音字母，该函数应返回“false”。这看起来应该可
javascript - 遇到 jquery 函数无法正常工作的问题
我一直在努力完成我正在做的这个小项目，但由于某种原因它无法正常工作。问题是当我第一次访问该页面并单击出现在主要部分中的第一个链接时，它会根据需要显示弹出框。现在，当我点击另一天，例如星期天并尝试点击
c# - 遇到 MySQL 异常问题
我正在尝试制作一个 WPF 应用程序。我的窗口内有一个数据网格。我制作了另一个窗口，将新数据添加到我的数据网格中。虽然它按照我想要的方式工作，但我不断遇到异常。我的 MySQL 代码: using S
iphone - 遇到 NSUserDefault 问题
我试图在我似乎无法使 NSUserDefaults 正常工作的程序中保存几个首选项。如果有人可以查看我的代码并查看是否有任何错误，我们将不胜感激 NSString *kGameIsPaused = @
postgresql - SymmetricDS 遇到 illegalStateException
设置 SymmetricDS版本是3.9.1(也试过3.9.0) 设置是从 postgres 9.5.3 到 postgres 9.5.3 Windows 10 pc(客户端节点)到 Windows
java - 遇到 double 问题
经过长时间的努力，我终于(差不多)完成了我的java菜单程序。但是，我无法让我的返回更改功能在我的代码末尾工作。它给出了非常奇数的数字。有什么想法吗？代码: import java.io.*; im

首页

博学

6Ren·AI

商城

apache-spark - 具有 32GB 或更多内存的 spark worker 遇到 fatal error