gpt4 book ai didi

apache-spark - SPARK独立集群: Executors exit,如何追踪错误来源?

转载 作者:行者123 更新时间:2023-12-04 04:19:11 26 4
gpt4 key购买 nike

我在一台 250GB 或内存和 40 个内核的机器上运行一个独立的集群,以及几个 TB 或硬盘空间。

我正在初始化一个由 8 个执行器组成的集群,每个执行器都有 5 个内核和 28GB 内存。

我正在读取数据,我的持久化策略是 MEMORY_AND_DISK。

我正在读取 parquet 文件、处理它们并生成 DataFrame,然后将其传递到管道以提取特征并训练随机森林分类器。

在生成 DataFrame 时,我失去了执行者,但我无法找出原因。

我看到如下错误:

16/12/15 11:07:30 ERROR TaskSchedulerImpl: Lost executor 3 on XXXX: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.
16/12/15 11:07:30 WARN TaskSetManager: Lost task 172.0 in stage 171.0 (TID 7757, XXXX): ExecutorLostFailure (executor 3 exited caused by one of the running tasks) Reason: Remote RPC client disassociated. Likely due to containers exceeding thresholds, or network issues. Check driver logs for WARN messages.

我查看了 Spark UI 上执行程序的 stderr 日志,但我找不到任何东西(INFO 日志记录级别已启用),只有 INFO 消息,没有任何 WARN 或 ERROR。

我监控执行器上的可用内存(再次使用 Spark UI),在执行器退出之前仍有可用内存,并且有足够的磁盘空间可用。

  • 我如何跟踪这个问题?
  • 执行人退出的原因是什么?

最佳答案

如果您有 8 个指定了 28g 内存的执行程序,每个执行程序只有 26g 用于其他一切,不同的开销加起来很快,这完全有可能太少,执行程序会因为占用内存而被杀死。

尝试为每个执行者使用 20g 之类的东西,或者只是一般地使用这些值。您还在失去执行者吗?

关于apache-spark - SPARK独立集群: Executors exit,如何追踪错误来源?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41163135/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com