scala - org.apache.spark.SparkException : Job aborted due to stage failure: Task 98 in stage 11. 0失败4次-6ren

scala - org.apache.spark.SparkException : Job aborted due to stage failure: Task 98 in stage 11. 0失败4次

转载作者：行者123 更新时间：2023-12-01 03:07:17

25

4

我正在使用Google Cloud Dataproc来完成工作，我的编辑器是Zepplin。我试图将json数据写入gcp存储桶。当我尝试10MB文件之前，它成功了。但是以10GB的文件失败。我的dataproc有1个主服务器，带有4CPU，26GB内存，500GB磁盘。 5名 worker 使用相同的配置。我想它应该能够处理10GB的数据。

我的命令是toDatabase.repartition(10).write.json("gs://mypath")
错误是

org.apache.spark.SparkException: Job aborted.
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:224)
  at org.apache.spark.sql.execution.datasources.InsertIntoHadoopFsRelationCommand.run(InsertIntoHadoopFsRelationCommand.scala:154)
  at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult$lzycompute(commands.scala:104)
  at org.apache.spark.sql.execution.command.DataWritingCommandExec.sideEffectResult(commands.scala:102)
  at org.apache.spark.sql.execution.command.DataWritingCommandExec.doExecute(commands.scala:122)
  at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:131)
  at org.apache.spark.sql.execution.SparkPlan$$anonfun$execute$1.apply(SparkPlan.scala:127)
  at org.apache.spark.sql.execution.SparkPlan$$anonfun$executeQuery$1.apply(SparkPlan.scala:155)
  at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
  at org.apache.spark.sql.execution.SparkPlan.executeQuery(SparkPlan.scala:152)
  at org.apache.spark.sql.execution.SparkPlan.execute(SparkPlan.scala:127)
  at org.apache.spark.sql.execution.QueryExecution.toRdd$lzycompute(QueryExecution.scala:80)
  at org.apache.spark.sql.execution.QueryExecution.toRdd(QueryExecution.scala:80)
  at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:656)
  at org.apache.spark.sql.DataFrameWriter$$anonfun$runCommand$1.apply(DataFrameWriter.scala:656)
  at org.apache.spark.sql.execution.SQLExecution$.withNewExecutionId(SQLExecution.scala:77)
  at org.apache.spark.sql.DataFrameWriter.runCommand(DataFrameWriter.scala:656)
  at org.apache.spark.sql.DataFrameWriter.saveToV1Source(DataFrameWriter.scala:273)
  at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:267)
  at org.apache.spark.sql.DataFrameWriter.save(DataFrameWriter.scala:225)
  at org.apache.spark.sql.DataFrameWriter.json(DataFrameWriter.scala:528)
  ... 54 elided
Caused by: org.apache.spark.SparkException: Job aborted due to stage failure: Task 98 in stage 11.0 failed 4 times, most recent failure: Lost task 98.3 in stage 11.0 (TID 3895, etl-w-2.us-east1-b.c.team-etl-234919.internal, executor 294): ExecutorLostFailure (executor 294 exited caused by one of the running tasks) Reason: Container marked as failed: container_1554684028327_0001_01_000307 on host: etl-w-2.us-east1-b.c.team-etl-234919.internal. Exit status: 143. Diagnostics: [2019-04-08 01:50:14.153]Container killed on request. Exit code is 143
[2019-04-08 01:50:14.153]Container exited with a non-zero exit code 143.
[2019-04-08 01:50:14.154]Killed by external signal

Driver stacktrace:
  at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1651)
  at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1639)
  at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1638)
  at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
  at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:48)
  at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1638)
  at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:831)
  at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:831)
  at scala.Option.foreach(Option.scala:257)
  at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:831)
  at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1872)
  at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1821)
  at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1810)
  at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
  at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:642)
  at org.apache.spark.SparkContext.runJob(SparkContext.scala:2034)
  at org.apache.spark.sql.execution.datasources.FileFormatWriter$.write(FileFormatWriter.scala:194)
  ... 74 more

知道为什么吗？

最佳答案

如果Spark worker 使用较小的数据集而不是较大的数据集，则很可能会遇到Spark worker 的内存不足限制。每个员工的内存问题将更多地取决于您的分区和每个执行者设置，而不是整个群集范围内的可用内存(因此，创建较大的群集将无助于此类问题)。

您可以尝试以下任意组合:

分为多个分区以输出，而不是10个

使用highmem创建集群，而不是standard机器

使用 Spark 内存设置创建集群，该设置会更改内存与CPU的比率:例如gcloud dataproc clusters create --properties spark:spark.executor.cores=1会将每个执行程序更改为一次仅以相同的内存量运行一个任务，而Dataproc通常每台计算机运行2个执行程序并相应地划分CPU 。在4核计算机上，您通常有2个执行程序，每个执行程序都允许2个内核。然后，此设置将仅为这两个执行器中的每个执行器提供1个内核，同时仍使用一半的机器内存。

关于scala - org.apache.spark.SparkException : Job aborted due to stage failure: Task 98 in stage 11. 0失败4次，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/55565364/

25

4

0

文章推荐： cmake - 如何告诉 CMake 使用相对路径

文章推荐： azure - ADAL python 对 Windows 登录用户的支持

文章推荐： php - 如何通过ajax在php中插入多个同名输入

文章推荐： python - Pandas dataframe + groupby = x 轴刻度缩放失败

c# - "async Task then await Task"与 "Task then return task"
这个问题在这里已经有了答案: Why use async and return await, when you can return Task directly? (8 个答案) 关闭 6 年前。
c++ - inline void addTask(Task task) vs inline void addTask(const Task &task)
这个问题在这里已经有了答案: Are the days of passing const std::string & as a parameter over? (13 个答案) 关闭 8 年前。我
c# - Task.WaitAny 接受 Task 而不是 Task [ ]
我有一组标记为执行的通用任务。当任务完成时(使用 Task.WaitAny )，我将其添加到 ObservableCollection 中. 但是，问题出在 Task.WaitAny(...)行，上面
c# - Task.WhenAll() 和 foreach(var task in tasks) 有什么区别
经过几个小时的努力，我在我的应用程序中发现了一个错误。我认为下面的 2 个函数具有相同的行为，但事实证明它们没有。谁能告诉我引擎盖下到底发生了什么，以及为什么它们的行为方式不同？ public as
python - 织物导入错误 : "fab task" vs. "from fabfile import task; task()"
这也与 Python 的导入机制有关，特别是与在函数内使用 import 有关。使用 Python 2.7.9 和 Fabric 1.10.0，创建以下三个文件: fabfile.py: from a
c# - 如果方法是同步的，则保留 Task 和 Task.FromResult 还是完全删除 Task-stuff？
我有一个 Web API Controller (ASP.NET Core 5)。我的一些 API 是异步的，而其中一些不是。我接下来的问题是:使用 public **Task** WebApiMet
c# - 使用 Task.Start 触发任务时卡在 Task.WaitAll(tasks.ToArray()) 处
我们有类似下面的内容 List uncheckItems = new List(); for (int i = 0; i new Task(async () => await Process
c# - 有效返回 "Task>"吗？或者最好返回 "Task.FromResult(MyObject)"
我的代码没问题，但我想知道哪种风格更好，你会怎么看，我正在玩异步方法。让我建立上下文: Parallel.ForEach(xmlAnimalList, async xml => {
c# - await Task.Factory.StartNew(() => vs Task.Start; await Task;
这两种使用 await 的形式在功能上有什么区别吗？ string x = await Task.Factory.StartNew(() => GetAnimal("feline")); Task m
c# - 关于 Task.Start() 、 Task.Run() 和 Task.Factory.StartNew() 的用法
我刚刚看到 3 个关于 TPL 使用的例程，它们做同样的工作；这是代码: public static void Main() { Thread.CurrentThread.Name = "Ma
c# - 为什么调用不明确？ 'Task.Run(Action)' 和 'Task.Run(Func)'
考虑以下代码: public void CacheData() { Task.Run((Action)CacheExternalData); Task.Run(() => CacheE
c# - 使用 Task.FromResult 将 Task 隐式转换为 Task 其中 T : X?
Task> GetTaskDict() { return Task.FromResult(new Dictionary () ); } 此代码无法编译，因为我们无法在 Task> 到 Tas
asp.net-core - RenderPartialAsync 返回 System.Threading.Tasks.Task`1[System.Threading.Tasks.VoidTaskResult]
我正在使用 ASP.NET 5 RC1 _MyPartial @model MyViewModel @using (Html.BeginForm())
C/C++ VS Code 扩展抛出构建错误 : "The task provider for "C/C+ +"tasks unexpectedly provided a task of type "shell"."
当我尝试在 VS Code 中构建 C 任务时，它显示以下消息: 输出仅显示:The task provider for "C/C++" tasks unexpectedly provided a t
multithreading - 全线程 : Create a task wrapper/modify a task that adds some extra pre- and post processing to an alredy existing task
一些背景: 基本上归结为我希望能够在当前线程中“执行”任务。为什么？ -我有一个任务创建程序例程，有一次我希望任务在后台任务中立即执行，而其他时候我希望使用 IOmniThreadPool 安排任务。
task - Scrum 燃尽图 : Tasks or Stories?
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
Gulp和运行顺序错误: Task is not configured as a task on gulp
我试图将run-sequence添加到我的gulp工作流程中，但是每次尝试执行使用run-sequence的任务时，都会出现此错误: 任务未配置为gulp上的任务。根据运行序列的来源，这是由以下te
c# - Task 在C#中是非法的？
此代码在VS2015中给出了编译时错误 Error CS0266 Cannot implicitly convert type 'System.Threading.Tasks.Task' to 'Sy
android - Tasks.await(task)显示不适当的阻塞方法调用警告
我正在尝试通过我的代码通过Google登出: suspend fun signOut(context: Context): Boolean = with(Dispatchers.IO) { t
c# - 如何生成 Task 以展开
谁能解释一下这两种说法的区别: Task bTask = backup.BackupCurrentDatabaseAsync() .ContinueWith(_ => CompressArch

首页

博学

6Ren·AI

商城

scala - org.apache.spark.SparkException : Job aborted due to stage failure: Task 98 in stage 11. 0失败4次