apache-spark - Spark ExecutorLostFailure- Reason : Remote RPC client disassociated. 可能是由于容器超过阈值或网络问题-6ren

apache-spark - Spark ExecutorLostFailure- Reason : Remote RPC client disassociated. 可能是由于容器超过阈值或网络问题

转载作者：行者123 更新时间：2023-12-04 12:02:40

42

4

我们使用 Spark 2.4 处理大约 445 GB 的数据。我们的集群有 150 个 worker ，每个 worker 有 7 个 CPU 和 127 GB。 Spark 以独立模式部署。
下面是我们的配置:
每个 worker 一个 executor，分配了 7 个 CPU 和 120 GB。
RDD 中有 2000 个分区。
我看到有时由于执行人丢失而导致工作失败。以下是错误:
驱动程序日志:

ExecutorLostFailure (executor 82 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.\nDriver

执行程序日志:

 2020-07-03 01:53:10 INFO  Worker:54 - Executor app-20200702155258-0011/13 finished with state EXITED message Command exited with code 137 exitStatus 137
 [ERROR] 2020-06-29 17:34:42,074 SIGTERM handler org.apache.spark.executor.CoarseGrainedExecutorBackend - {} - RECEIVED SIGNAL TERM
 - Started 161 remote fetches in 3 ms
 [ERROR] 2020-06-29 17:34:42,079 SIGTERM handler org.apache.spark.executor.CoarseGrainedExecutorBackend - {} - RECEIVED SIGNAL TERM
687.0 in stage 87.0 (TID 45809). 66993 bytes result sent to driver

此外，我注意到由于 OOM 错误，一个工作箱已关闭，但我在驱动程序或工作日志中没有看到任何 OOM 错误。
早些时候，我曾尝试在 RDD 中为每个 worker 运行 2 个 executor，3 个 CPU，每个 executor 60 GB 和 2000 个分区，但也有相同的 executor 丢失问题。
我认为我们有足够的内存分配给执行程序，但随后执行程序也会丢失代码 137，这被认为是由于内存问题，但驱动程序或执行程序日志中没有 OOM 异常。
我尝试将“spark.memory.fraction”更新为“0.8”，我看到了更好的工作成功率，但有时也会因上述错误而失败。

最佳答案

可能不是通用的解决方案，但我通过减少 spark.executor.memory 解决了这个问题到我设定的一半，它奏效了。我猜可能是因为 Spark 以外的应用程序也在我的集群机器上运行并消耗内存。将所有内存分配给 spark 应用程序会导致机器变慢，从而失去通信。

关于apache-spark - Spark ExecutorLostFailure- Reason : Remote RPC client disassociated. 可能是由于容器超过阈值或网络问题，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/62759550/

42

4

0

文章推荐： asp.net-core - 使用身份验证在 Blazor 服务器端下载文件

文章推荐： typescript - 使用 wasm 将模块导入并编译到 webpack 中

文章推荐： javascript - 跨微任务批处理 React 更新？

rpc - RPC 在消息传递方面的缺点是什么？
RPC 在消息传递方面的缺点是什么？最佳答案您是在谈论 RPC 与消息传递吗？就像(通常)异步消息传递一样？如果这就是您所说的，那么消息传递往往会以复杂性和额外基础架构为代价变得更加健壮。最简单
rpc - 比特币 RPC 获取钱包外地址余额
我想查看不在我钱包中的btc地址余额。似乎像 blockchainexplorer 这样的网站会做这类事情。他们还提供 API，但我遇到了他们的 API 使用限制。所以我下载了完整的区 block 链
rpc - PyEZ:RPC:获取特定孙元素的路由信息
我想获得这样的 RPC 信息: > show route output interface ae40.4181 | display xml rpc
payload - 我收到错误 : "MetaMask - RPC Error: Error: Error: [ethjs-rpc] rpc error with payload"
我从我的 javascript 发送交易 Metamask 打开传输对话框我确定 i get an error message in metamask (inpage.js:1 MetaMask -
rpc - Corda RPC 通信。性能缓慢
有一个场景，客户端通过 RPC 触发 cordapp 并等待结果。 rpcConnection.proxy .startFlow(::ImportAssetFlow, importDto) .retu
rpc - RabbitMQ 在请求处理过程中对于 RPC 式的双向使用是否实用？
super 简单的问题，我在那里找不到具体的答案。 RabbitMQ 在处理 HTTP 请求时是否适合做类似 RPC 的操作？我有兴趣在收到用户 HTTP 请求时触发一条消息，等待来自后端服务器的响
xml-rpc - XML-RPC 故障代码的标准是什么？
在为我的网站编写 pingback 处理程序的过程中，我注意到 XML-RPC specification没有说明应该定义什么故障代码及其含义。所以问题是，是否有一个普遍接受的故障代码标准来指定这些信
rpc - 如何在 Telegram 中进行基本的远程过程调用 (RPC)？
我正在尝试创建一个可以演示 Telegram API 某些功能的小程序。我希望能够通过 SMS 注册和验证用户。根据user authorization guide ，我需要调用 auth.sendC
JSON-RPC 和 Json-rpc 服务发现规范
我将实现 JSON-RPC Web 服务。我需要这方面的规范。到目前为止，我只找到了一种可以称为真正规范的资源: JSON-RPC 1.0 http://json-rpc.org/wiki/speci
rpc - 什么是 RPC 框架和 Apache Thrift？
我需要学习Apache Thrift一个大学项目。这样tutorial说，它是一个 RPC 框架，也是我能找到的除 their documentation 之外的 Thrift 的唯一文档。 . 有人
rpc - 有没有人在 libevent 中使用过 rpc 框架？
我有一个多服务器多客户端应用程序，我想保留一些由单个守护进程管理的公共(public)数据(以避免并发的噩梦)，这样服务器就可以在需要操作共享数据时询问它。我已经在服务器中使用 libevent，所
java - 从另一个 RPC 成功调用 RPC 成功
我在我的代码中做了一个rpc。在成功方面，我有一些代码作为此 rpc 调用的触发器。我的代码中有第二个 rpc。在另一个调用的成功端，我想执行第一个 rpc 成功端中的代码。在不复制第一个rpc
GWT RPC 调用从另一个 GWT RPC 调用获取返回对象
我有一个奇怪的问题(希望您能提供帮助):我正在开发一个 GWT Web 应用程序，该应用程序有时会同时进行超过 4 - 5 个 GWT RPC 调用 - 就时间而言。每隔一段时间 - 每 15 个电
java - GWT RPC - 多个 RPC 服务
我遇到了将大型 RPC 服务拆分成较小块的问题。我在这里找到了基础知识 GWT RPC - Multiple RPC Services Per App ，但我正在努力实现。我在任何地方都找不到任何好的
java - GWT RPC - 每个应用程序多个 RPC 服务
我目前正在使用具有一项大型 RPC 服务的 GWT 应用程序。它有 100 多个方法，所有方法都做不同的事情。如果将其拆分为多个 RPC 服务，我会获得什么样的性能优势/障碍？我相信我必须为每个人制作
xml - SOAP RPC/编码转换为 RPC/文字
有谁知道可以将 RPC/编码 WSDL 转换为 RPC/文字的工具或“黑盒”？我没有能力更改 API(这不是我的)但我想使用的工具不支持 RPC/Encoded。我想看看是否有人创建了一个简单的黑盒通
go - gorilla/rpc JSON RPC 服务没有响应
我正在调查使用 gorilla web toolkit创建一个简单的 RPC API。我正在使用他们文档中的示例，并且正在使用 Advanced Rest Client 进行测试在 Chrome 中使
json-rpc - 如何使用 JSON-RPC 处理面向对象的 API？
由于 JSON-RPC 是面向过程的，因此我在 C# 中有一个 API 不会映射到 JSON-RPC。您将如何在 JSON-RPC 中表示面向对象的 API？我当然可以使用 JSON-RPC 扩展，
rpc - 将 RPC 功能添加到 Bernstein 的 Daemontools
我是来自意大利的计算机科学专业的学生，我必须做一个基于的项目修改 Daemontools Of D.J. 的版本Bernstein 必须在 Unix 下实现远程过程调用。通常，为了使用工具启动
java - GWT RPC 未生成正确的 gwt.rpc 文件
我正在将 gwt 与 gwt-platform 结合使用，并使用调度异步进行服务器调用。我遇到的问题是我正在使用的操作没有被标记为可序列化或添加到 *.gwt.rpc 文件中。当我的代码运行时，我得到

首页

博学

6Ren·AI

商城

apache-spark - Spark ExecutorLostFailure- Reason : Remote RPC client disassociated. 可能是由于容器超过阈值或网络问题