amazon-ec2 - SparkException:大师删除了我们的应用程序-6ren

amazon-ec2 - SparkException:大师删除了我们的应用程序

转载作者：行者123 更新时间：2023-12-03 20:25:57

25

4

我知道Stackoverflow上有other very similar个问题，但是这些问题没有得到回答或没有帮助我。与这些问题相比，我在此问题中添加了更多的堆栈跟踪和日志文件信息。我希望这会有所帮助，尽管这使问题变得冗长而丑陋。对不起。

建立

我正在使用安装了DSE（DataStax Enterprise）4.6版的m3.xlarge实例在Amazon EC2上运行9节点集群。对于每个工作负载（Cassandra，搜索和分析），使用3个节点。 DSE 4.6捆绑了Spark 1.1和Cassandra 2.0。

问题

大约3分钟后，即使我没有运行任何查询，该应用程序（Spark / Shark-Shell）也被删除。只要在约3分钟内完成，对小型数据集的查询就会成功运行。

我想分析更大的数据集。因此，我需要在3分钟后不要删除应用程序（外壳）。

错误说明

在Spark或Shark外壳上，经过约3分钟的空闲时间或在执行（长时间运行）查询时，Spark最终将中止并给出以下堆栈跟踪：

15/08/25 14:58:09 ERROR cluster.SparkDeploySchedulerBackend: Application has been killed. Reason: Master removed our application: FAILED
org.apache.spark.SparkException: Job aborted due to stage failure: Master removed our application: FAILED
    at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1185)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1174)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1173)
    at scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
    at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
    at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1173)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:688)
    at org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:688)
    at scala.Option.foreach(Option.scala:236)
    at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:688)
    at org.apache.spark.scheduler.DAGSchedulerEventProcessActor$$anonfun$receive$2.applyOrElse(DAGScheduler.scala:1391)
    at akka.actor.ActorCell.receiveMessage(ActorCell.scala:498)
    at akka.actor.ActorCell.invoke(ActorCell.scala:456)
    at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:237)
    at akka.dispatch.Mailbox.run(Mailbox.scala:219)
    at akka.dispatch.ForkJoinExecutorConfigurator$AkkaForkJoinTask.exec(AbstractDispatcher.scala:386)
    at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
    at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
    at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
    at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
FAILED: Execution Error, return code -101 from shark.execution.SparkTask

（对我而言）这不是很有帮助，这就是为什么我将向您显示更多日志文件信息的原因。

错误详细信息/日志文件

主

从 master.log我认为有趣的部分是

INFO 2015-08-25 09:19:59 org.apache.spark.deploy.master.DseSparkMaster: akka.tcp://sparkWorker@172.31.46.48:46715 got disassociated, removing it.
INFO 2015-08-25 09:19:59 org.apache.spark.deploy.master.DseSparkMaster: akka.tcp://sparkWorker@172.31.33.35:42136 got disassociated, removing it.

和

ERROR 2015-08-25 09:21:01 org.apache.spark.deploy.master.DseSparkMaster: Application Shark::ip-172-31-46-49 with ID app-20150825091745-0007 failed 10 times, removing it
INFO 2015-08-25 09:21:01 org.apache.spark.deploy.master.DseSparkMaster: Removing app app-20150825091745-0007

为什么工作节点不关联？

如果您需要查看它，我也附上了 master's executor (ID 1) stdout。执行程序 stderr为空。但是，我认为这对解决该问题没有任何帮助。

在Spark Master UI上，我验证了所有工作节点均为 ALIVE。第二个屏幕截图显示了应用程序详细信息。

在主实例上产生了一个执行程序，而在两个工作节点上的执行程序被重新产生，直到整个应用程序被删除。可以吗？还是表明有问题？我认为这可能与上面的“（失败）10次”错误消息有关。

工人日志

此外，我可以向您展示两个Spark工作者节点的日志。我删除了大多数类路径参数以缩短日志。让我知道是否需要查看。当每个工作程序节点产生多个执行程序时，我将链接附加到某些（并非全部）执行程序 stdout和 stderr转储。其余执行者的转储看起来基本相同。

工人我

worker.log
Executor (ID 10) stdout
Executor (ID 10) stderr

工人二

worker.log
Executor (ID 3) stdout
Executor (ID 3) stderr

执行程序转储似乎表明许可和/或超时存在一些问题。但是从转储中我找不到任何细节。

尝试次数

如上所述，有一些类似的问题，但是没有一个得到回答，或者没有帮助我解决问题。无论如何，我尝试过并验证的是：

Opened port 2552。没有什么改变。
Increased spark.akka.askTimeout导致Spark / Shark应用寿命更长，但最终仍然被删除。
Ran the Spark shell locally和 spark.master=local[4]。一方面，这使我能够成功运行超过3分钟以上的查询，另一方面，它显然没有利用分布式环境。

摘要

综上所述，可以说超时和长时间运行的查询在本地模式下成功执行的事实都表明配置有误。虽然我不确定，也不知道如何解决。

任何帮助将不胜感激。

编辑：群集的初始设置后，添加了两个Analytics（分析）和两个Solr节点。以防万一重要。

编辑（2）：我可以通过用三个新安装的Analytics（分析）节点替换Analytics（分析）节点来解决上述问题。现在，我可以在不删除外壳的情况下对更大的数据集运行查询。我不打算以此为答案，因为仍不清楚三个原始Analytics（分析）节点到底出了什么问题。但是，由于它是用于测试的群集，因此可以简单地替换节点（替换节点后，我在每个新节点上执行了 nodetool rebuild -- Cassandra以便从Cassandra数据中心恢复其数据）。

最佳答案

如尝试中所述，根本原因是主节点与一个或多个工作程序之间的超时。

要尝试的另一件事：通过dns或/ etc / hosts文件中的条目，通过主机名上的主机名验证是否可以访问所有工作进程。

就我而言，问题是群集运行在没有DNS的AWS子网中。随着时间的流逝，群集通过旋转节点而增加，并将节点添加到群集中。构建主服务器时，仅知道集群中地址的一个子集，并且仅将该子集添加到了/ etc / hosts文件中。
当从“新”节点运行dse spark时，主服务器使用工作人员的主机名的通信失败，主服务器终止了该作业。

关于amazon-ec2 - SparkException:大师删除了我们的应用程序，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/32245498/

25

4

0

文章推荐： spring-webflow - Spring Web Flow LockTimeoutException

文章推荐： python - 总结列表的值与 Python 中的相应索引值

文章推荐： python - 如何在边缘列表中找到所有派系

文章推荐： haskell - 连接两个没有 `mappend` 的 Data.Texts 的标准方法

amazon-cloudsearch - Amazon CloudSearch 和 Amazon Kendra
我想知道 Amazon CloudSearch 和 Kendra 之间的主要区别是什么？为什么同一家公司的产品有两种不同的工具相互竞争？两者看起来都一样，我不确定功能有何不同。它是如何相互区分的。 A
amazon-simpledb - Amazon SimpleDB 与 Amazon RDS
我在一家小型电子商务网站工作，我们希望迁移到所有 Amazon 托管服务，但我不确定 RDS 和 SimpleDB 的确切区别。 RDS可以用MySQL，SimpleDB不行吗？最佳答案 RDS 基
amazon-ec2 - Amazon EC2 与 Amazon EMR
关闭。这个问题是opinion-based .它目前不接受答案。想改善这个问题吗？更新问题，以便可以通过 editing this post 用事实和引文回答问题. 7年前关闭。 Improve t
amazon-ec2 - Amazon ELB 如何将请求分发到不同实例类型的 Amazon EC2 实例？
任何人都知道如何 ELB如果我注册多个 EC2 将分发请求不同大小的实例。说一 m1.medium , 一 m1.large和一个 m1.xlarge . 如果我注册EC2会不会不一样相同大小的实例？
amazon-web-services - 用于事件驱动交互的 Amazon AppFlow 与 Amazon EventBridge
Amazon EventBridge 使开发人员能够将第 3 方事件驱动的应用程序与 Amazon 服务连接起来。 Amazon AppFlow 还提供与第 3 方应用程序的事件驱动集成。对于事件驱
amazon-web-services - Amazon Pinpoint 与 Amazon SES/SMS
我想通过电子邮件或短信向特定用户(只有一个)发送验证码。我已经通过 Amazon SES 成功地做到了。但我没有尝试通过Amazon SMS然而。我发现自己陷入了调查的兔子洞AWS Pinpoint
amazon-web-services - Amazon S3 和 Amazon EBS 之间的主要区别是什么
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。想改善这个问题吗？更新问题，使其成为 on-topic对于堆栈溢出。 6年前关闭。 Improve thi
amazon-web-services - Amazon Glacier 可以镜像 Amazon S3 存储桶吗？
我想使用 Amazon Glacier 镜像 S3 存储桶。 Glacier FAQ状态: Amazon S3 now provides a new storage option that enabl
amazon-s3 - 将 Amazon S3 与 Amazon RDS 结合使用
我正在尝试在 Amazon RDS 上托管数据库，而数据库将存储信息的实际内容(视频)将托管在 Amazon S3 上。我对这个过程有一些疑问，希望有人能帮助我。 Amazon RDS 上托管的数
amazon-web-services - Amazon ECS 和 Amazon EC2 有什么区别？
我刚刚开始使用 AWS EC2。我知道 EC2 就像一台远程计算机，我几乎可以在其中完成我想做的所有事情。后来我知道了ECS。我知道它使用 Docker，但我对这两者之间的关系感到困惑。 ECS 只是
amazon-web-services - Amazon SNS 和 Amazon SQS 有什么区别？
什么时候我会使用 SNS 和 SQS，为什么它们总是耦合在一起？最佳答案 SNS是一个分布式发布-订阅系统。当发布者将消息发送到 SNS 时，消息就会被推送给订阅者。 SQS是分布式排队系统。消息不
amazon-web-services - Amazon S3 和 Amazon EC2 实例有什么区别？
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。这个问题似乎不是关于 a specific programming problem, a software
amazon-s3 - 是否可以在 Amazon S3 用户之间共享 Amazon S3 存储桶？
已关闭。这个问题是 off-topic 。目前不接受答案。想要改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。已关闭10 年前。 Improve th
amazon-ec2 - 当我有多个服务器时，我应该在 Amazon EC2 中使用 Amazon VPC
我计划在 amazon EC2 中拥有一个多服务器架构，其中服务器需要相互通信。这些服务器需要位于不同的亚马逊地区(不同的数据中心)。我可以只使用亚马逊ec2的内部网络吗？有哪些安全问题？我是否应该在
amazon-web-services - 允许从 Amazon EC2 实例到 Amazon S3 存储桶的跨账户访问
我在帐户 B 中有 S3 存储桶“跨存储桶”。现在我希望帐户 A 中存在的 EC2 访问帐户 B 中的此存储桶“跨存储桶”。我需要使用 IAM 角色来实现此目的，因为我们不允许创建用户。我已使用以
amazon-s3 - 单页应用程序 + Amazon S3 + Amazon CloudFront + Prerender.io - 如何设置？
我有使用 Backbone.js 构建的单页应用程序。我在 Amazon S3 上托管应用程序(应用程序仅包含静态文件)。我使用 CloudFront 作为 Bucket CDN。应用程序通过
amazon-web-services - 您可以连接到 Amazon 外部的 Amazon ElastiСache Redis 吗？
我可以连接到 ElastiCache来自 EC2 实例的 VPC 中的 Redis 实例。但我想知道是否有办法连接到 Amazon EC2 实例之外的 ElastiCache Redis 节点，例如
amazon-ec2 - Amazon EC2微型实例无响应
我有几个微实例可以正常工作数周。两者都在运行WordPress博客。在过去的24小时内，其中一个已经停止。即使重新启动，我也无法插入。另一个实例工作正常。 ssh: connect to host e
amazon-redshift - Amazon Redshift中的generate_series函数
我尝试了以下方法: SELECT * FROM generate_series(2,4); generate_series ----------------- 2
amazon-s3 - Amazon S3将目录复制到另一个目录
如何使用PHP API将包含子文件夹和文件的文件夹复制/复制到S3存储桶中的另一个目录中？ $s3->copy_object仅复制文件夹，而不复制其中的文件和子文件夹。我是否必须使用$s3->lis

首页

博学

6Ren·AI

商城

amazon-ec2 - SparkException:大师删除了我们的应用程序