apache-spark - 几次运行后，Databricks 集群上计划的 Spark 作业间歇性失败

转载作者：行者123 更新时间：2023-12-05 07:17:36

当前设置 - Azure 数据工厂管道计划每 15 分钟运行一次，在始终在线的交互式数据 block 集群上运行一些数据 block 笔记本。

这里面临的问题是 - 此管道在 4-5 次运行后失败。由于 Spark Driver 的问题。没有可能导致驱动程序内存填满的 Collect 语句。当驱动程序尝试将信息写入内部 Metastore(由 Databricks 自动管理)时，错误日志显示问题。该线程导致 GC 开销限制违反并导致 Full GC。结果驱动程序被杀死，Notebook 运行失败。

这是日志-

19/11/06 04:56:47 ERROR DatabricksMain$DBUncaughtExceptionHandler: Uncaught exception in thread db-atomic-read-worker-5095!
java.lang.OutOfMemoryError: GC overhead limit exceeded
    at java.util.Arrays.copyOf(Arrays.java:3332)
    at java.lang.AbstractStringBuilder.ensureCapacityInternal(AbstractStringBuilder.java:124)
    at java.lang.AbstractStringBuilder.append(AbstractStringBuilder.java:596)
    at java.lang.StringBuilder.append(StringBuilder.java:190)
    at java.io.ObjectInputStream$BlockDataInputStream.readUTFSpan(ObjectInputStream.java:3506)
    at java.io.ObjectInputStream$BlockDataInputStream.readUTFBody(ObjectInputStream.java:3414)
    at java.io.ObjectInputStream$BlockDataInputStream.readUTF(ObjectInputStream.java:3226)
    at java.io.ObjectInputStream.readString(ObjectInputStream.java:1905)
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1564)
    at java.io.ObjectInputStream.readObject(ObjectInputStream.java:431)
    at java.util.Hashtable.readObject(Hashtable.java:1213)
    at sun.reflect.GeneratedMethodAccessor36.invoke(Unknown Source)
    at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
    at java.lang.reflect.Method.invoke(Method.java:498)
    at java.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:1170)
    at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:2178)
    at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:2069)
    at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1573)
    at java.io.ObjectInputStream.readObject(ObjectInputStream.java:431)
    at org.apache.commons.lang3.SerializationUtils.clone(SerializationUtils.java:94)
    at org.apache.spark.SparkContext$$anon$2.childValue(SparkContext.scala:370)
    at org.apache.spark.SparkContext$$anon$2.childValue(SparkContext.scala:366)
    at java.lang.ThreadLocal$ThreadLocalMap.<init>(ThreadLocal.java:391)
    at java.lang.ThreadLocal$ThreadLocalMap.<init>(ThreadLocal.java:298)
    at java.lang.ThreadLocal.createInheritedMap(ThreadLocal.java:255)
    at java.lang.Thread.init(Thread.java:420)
    at java.lang.Thread.init(Thread.java:349)
    at java.lang.Thread.<init>(Thread.java:511)
    at sun.security.ssl.SSLSocketImpl$NotifyHandshakeThread.<init>(SSLSocketImpl.java:2675)
    at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:1096)
    at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1367)
    at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1395)
19/11/06 04:56:47 ERROR DatabricksMain$DBUncaughtExceptionHandler: OutOfMemoryError in thread db-atomic-read-worker-5095! Killing thread now.
19/11/06 04:56:47 WARN TrapExitSecurityManager: Called "System.exit(15)" in db-atomic-read-worker-5095!
Stack Trace:
  java.lang.Thread.getStackTrace(Thread.java:1559)
  com.databricks.backend.daemon.driver.TrapExitSecurityManager.checkExit(DriverLocal.scala:686)
  java.lang.Runtime.halt(Runtime.java:273)
  com.databricks.DatabricksMain$DBUncaughtExceptionHandler.uncaughtException(DatabricksMain.scala:363)
  java.lang.ThreadGroup.uncaughtException(ThreadGroup.java:1057)
  java.lang.ThreadGroup.uncaughtException(ThreadGroup.java:1052)
  java.lang.Thread.dispatchUncaughtException(Thread.java:1959)

19/11/06 04:56:47 WARN TrapExitSecurityManager: Allowed to exit because this is OOM!
19/11/06 04:56:52 INFO StaticConf$: DB_HOME: /databricks
19/11/06 04:56:53 INFO DriverDaemon$: ========== driver starting up ==========
19/11/06 04:56:53 INFO DriverDaemon$: Java: Private Build 1.8.0_222
19/11/06 04:56:53 INFO DriverDaemon$: OS: Linux/amd64 4.15.0-1050-azure
19/11/06 04:56:53 INFO DriverDaemon$: CWD: /databricks/driver

非托管 Metastore 的连接问题 -

urrent allocation: Map(1414820437514047686 -> 1, 289483405015881873 -> 175)
Ideal allocation: Map(1414820437514047686 -> 88, 289483405015881873 -> 88)
Starved pools: Map(1414820437514047686 -> 98.420017518)
19/11/06 04:55:37 INFO MapOutputTrackerMasterEndpoint: Asked to send map output locations for shuffle 588 to 10.139.64.20:49530
19/11/06 04:55:29 ERROR BoneCP: Failed to acquire connection to jdbc:mariadb://consolidated-westeurope-prod-metastore-addl-1.mysql.database.azure.com:3306/organization4787651615040525?trustServerCertificate=true&useSSL=true. Sleeping for 7000 ms. Attempts left: 5
java.sql.SQLNonTransientConnectionException: Could not connect to consolidated-westeurope-prod-metastore-addl-1.mysql.database.azure.com:3306 : Connection reset
    at org.mariadb.jdbc.internal.util.exceptions.ExceptionMapper.get(ExceptionMapper.java:161)
    at org.mariadb.jdbc.internal.util.exceptions.ExceptionMapper.getException(ExceptionMapper.java:106)
    at org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.connectWithoutProxy(AbstractConnectProtocol.java:1036)
    at org.mariadb.jdbc.internal.util.Utils.retrieveProxy(Utils.java:490)
    at org.mariadb.jdbc.MariaDbConnection.newConnection(MariaDbConnection.java:144)
    at org.mariadb.jdbc.Driver.connect(Driver.java:90)
    at java.sql.DriverManager.getConnection(DriverManager.java:664)
    at java.sql.DriverManager.getConnection(DriverManager.java:208)
    at com.jolbox.bonecp.BoneCP.obtainRawInternalConnection(BoneCP.java:361)
    at com.jolbox.bonecp.BoneCP.obtainInternalConnection(BoneCP.java:269)
    at com.jolbox.bonecp.ConnectionHandle.<init>(ConnectionHandle.java:242)
    at com.jolbox.bonecp.PoolWatchThread.fillConnections(PoolWatchThread.java:115)
    at com.jolbox.bonecp.PoolWatchThread.run(PoolWatchThread.java:82)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: java.sql.SQLNonTransientConnectionException: Could not connect to consolidated-westeurope-prod-metastore-addl-1.mysql.database.azure.com:3306 : Connection reset
    at org.mariadb.jdbc.internal.util.exceptions.ExceptionMapper.get(ExceptionMapper.java:161)
    at org.mariadb.jdbc.internal.util.exceptions.ExceptionMapper.connException(ExceptionMapper.java:79)
    at org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.handleConnectionPhases(AbstractConnectProtocol.java:724)
    at org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.connect(AbstractConnectProtocol.java:402)
    at org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.connectWithoutProxy(AbstractConnectProtocol.java:1032)
    ... 13 more
Caused by: java.net.SocketException: Connection reset
    at java.net.SocketInputStream.read(SocketInputStream.java:210)
    at java.net.SocketInputStream.read(SocketInputStream.java:141)
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
    at sun.security.ssl.InputRecord.read(InputRecord.java:503)
    at sun.security.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:975)
    at sun.security.ssl.SSLSocketImpl.waitForClose(SSLSocketImpl.java:1761)
    at sun.security.ssl.HandshakeOutStream.flush(HandshakeOutStream.java:124)
    at sun.security.ssl.Handshaker.kickstart(Handshaker.java:1079)
    at sun.security.ssl.SSLSocketImpl.kickstartHandshake(SSLSocketImpl.java:1479)
    at sun.security.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1346)
    at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1395)
    at sun.security.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1379)
    at org.mariadb.jdbc.internal.protocol.AbstractConnectProtocol.handleConnectionPhases(AbstractConnectProtocol.java:676)
    ... 15 more
19/11/06 04:55:37 WARN PreemptionMonitor: Preempted 43/43 tasks from 289483405015881873.
19/11/06 04:55:53 WARN PreemptionMonitor: Attempting to preempt 43 tasks from overallocated pools.
19/11/06 04:55:53 INFO PreemptionMonitor: Current allocation state: 
Current max parallelism: 176

我很感激任何问题的答案-

1- 我可以调整任何 spark 作业/databricks 集群参数以避免此类驱动程序故障？

2-如何避免连接到 Metastore 的守护进程造成内存堆积。通过引起一些本地 GC 在 Job 提交后刷新内存。

3- 我在哪里可以看到/控制这个非托管 Metastore？

最佳答案

我遇到过类似的问题。我的问题是驱动节点的内存用完了。

在我的 spark 日志记录中，错误之前有完整的 GC 日志记录。

顺便说一句，我正在使用 Azure 数据 block 。

关于apache-spark - 几次运行后，Databricks 集群上计划的 Spark 作业间歇性失败，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/58725934/

文章推荐： javascript - 如何自动将相对导入路径重写为绝对路径？

angular - 从批处理文件运行一组命令(运行 VSCode、运行 NG 服务)
好的，所以我想从批处理文件运行我的整个工作环境... 我想要实现什么...... 打开新的 powershell，打开我的 API 文件夹并从该文件夹运行 VS Code 编辑器(cd c:\xy;
单击“运行”按钮时，iOS Xcode 项目不会构建/运行
我正在查看 Cocoa Controls 上的示例并下载了一些演示。我遇到的问题是一些例子，比如 BCTabBarController ，不会在我的设备上构建或启动。当我打开项目时，它看起来很正常，没
c - 运行 C — helloWorld 运行，但没有其他内容 — Ubuntu
我刚刚开始学习 C 语言(擅长 Java 和 Python)。当编写 C 程序(例如 hello world)时，我在 ubuntu cmd 行上使用 gcc hello.c -o hello 编译
php - 从 cron 运行 php 没有作为 CLI 运行
我在 php 脚本从 cron 开始运行到超时后注意到了这个问题，但是当它从命令行手动运行时这不是问题。 (对于 CLI，PHP 默认的 max_execution_time 是 0) 所以我尝试运行
node.js - 如何通过 IntelliJ 运行/调试配置让 wdio 运行？
我可以使用命令行运行测试 > ./node_modules/.bin/wdio wdio.conf.js 但是如果我尝试从 IntelliJ 的运行/调试配置运行它，我会遇到各种不同的错误。 Fea
java - 从 python 运行 bat 文件会返回错误，而直接从 cmd 运行
Error occurred during initialization of VM. Could not reserve enough space for object heap. Error: C
python - 无法从 anaconda 运行 jupyter 笔记本，但可以从 python 运行
将 Anaconda 安装到 C:\ 后，我无法打开 jupyter 笔记本。无论是在带有 jupyter notebook 的 Anaconda Prompt 中还是在导航器中。我就是无法让它工作。
Python 脚本通过双击和 IDLE 运行，但不通过 Windows CMD shell 运行
我遇到一个问题，如果我双击我的脚本 (.py)，或者使用 IDLE 打开它，它将正确编译并运行。但是，如果我尝试在 Windows 命令行中运行脚本，请使用 C:\> "C:\Software_Dev
php - 查询从 postman 和 phpmyadmin 运行，但不是从 android 运行
情况我正在使用 mysql 数据库。查询从 phpmyadmin 和 postman 运行但是当我从 android 发送请求时(它返回零行) 我已经记录了从 android 发送的电子邮件是正确
java - 从 Java 运行 .exe 会提供与直接从 Windows 运行 .exe 不同的控制台输出
所以这个有点奇怪 - 为什么从 Java 运行 .exe 文件会给出不同的输出而不是直接运行 .exe。当 java 在下面的行执行时，它会调用我构建的可与 3CX 电话系统配合使用的 .exe 文
c# - 应用程序在 Visual Studio 的单元测试中以 x86 运行，但在独立时以 x64 运行
这行代码 Environment.Is64BitProcess 当我的应用单独运行时评估为真。但是当它在我的 Visual Studio 单元测试中运行时，相同的表达式的计算结果为 false。我
javascript - 使用 JQuery 运行 AJAX 和使用普通 XMLHttpRequest 运行 AJAX 有什么区别？
关闭。这个问题是opinion-based .它目前不接受答案。想要改进这个问题？更新问题，以便 editing this post 可以用事实和引用来回答它. 关闭 8 年前。 Improve
c - 为什么我的 C 程序可以在 "git bash"运行，但不能在 "cmd"运行？
我写了一个使用 libpq 连接到 PostgreSQL 数据库的演示。我尝试通过包含将 C 文件连接到 PostgreSQL #include 在我将路径添加到系统变量 I:\Program F
java - 从 Jenkins 运行 Android 模拟器以使用 Robotium 运行 Junit 测试
如何从 Jenkins 运行 Android 模拟器来运行我的测试？当我在 Execiute Windows bath 命令中写入时，运行模拟器的命令: emulator -avd Tester 然后
ruby-on-rails - 使用 ngninx 运行 errbit，使用 ssl 运行 passenger
我已经配置好东西，这样我就可以使用 ssl 登录和访问在 nginx 上运行的 errbit 我的问题是我不知道如何设置我的 Rails 应用程序的 errbit.rb 以便我可以运行测试 nginx
ios - flutter app 不是由 flutter build ios 运行，而是由 xcode 运行
我编写了 flutter 应用程序，我通过 xcode 打开了 ios 部分并且应用程序正在运行，但是当我通过 flutter build ios 通过 vscode 运行应用程序时，我得到了这个错误
python - 我的 python 脚本通过我的 IDE (PyCharm) 运行，但无法使用 Python shell 运行
我有一个简短的 python 脚本，它使用日志记录模块和 configparser 模块。我在Win7下使用PyCharm 2.7.1和Python 3.3。当我使用 PyCharm 运行我的脚本时
c# - .NET 2005 - 通过 IIS 的测试作为 x86 运行。单元测试以 x64 运行
我在这里遇到了一些难题。我的开发箱是 64 位的，windows 7。我所有的项目都编译为“任何 CPU”。该项目引用了 64 位版本的第 3 方软件当我运行不使用任何 Web 引用的单元测试时，
c++ 相同的代码从不在 Visual Studio 中编译/运行，有时在 Qt Creator 中编译/运行
当我注意到以下问题时，我正在做一些 C++ 练习。给定的代码将不会在 Visual Studio 2013 或 Qt Creator 5.4.1 中运行/编译报错: invalid types 'd
airflow - 运行 dag 并让 Airflow 运行 : error: the following arguments are required: task_id,execution_date
假设我有一个 easteregg.py 文件: from airflow import DAG from dateutil import parser from datetime import tim

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

apache-spark - 几次运行后，Databricks 集群上计划的 Spark 作业间歇性失败

1- 我可以调整任何 spark 作业/databricks 集群参数以避免此类驱动程序故障？

2-如何避免连接到 Metastore 的守护进程造成内存堆积。通过引起一些本地 GC 在 Job 提交后刷新内存。

3- 我在哪里可以看到/控制这个非托管 Metastore？