kubernetes - 超时尝试为检查点作业启动 flink 作业主机-6ren

kubernetes - 超时尝试为检查点作业启动 flink 作业主机

转载作者：行者123 更新时间：2023-12-02 12:34:29

我正在尝试设置 flink 以从检查点恢复。在大多数情况下，这似乎可行，但是在将其部署到我们的暂存环境大约一周后，作业管理器已开始崩溃循环，因为在尝试启 Action 业的“作业主机”时超时。

我正在使用以高可用性模式部署的 flink 1.7.2 和 zookeeper 3.4.9-1757313，只是为了方便检查点恢复。我在 Kubernetes 上只有一个作业管理器部署为有状态集。一定是某些原因导致服务器崩溃，并且在重新启动时，它似乎在为(可能)恢复的作业启 Action 业主机的代码中失败了。

我以前见过这种情况，并清除了所有 flink zookeeper 条目(zk cli 中的 rmr /flink)，然后重新启动 flink 集群“修复”了该问题。

这是flink配置

    blob.server.port: 6124
    blob.storage.directory: s3://...
    high-availability: zookeeper
    high-availability.zookeeper.quorum: zookeeper:2181
    high-availability.zookeeper.path.root: /flink
    high-availability.storageDir: s3://...
    high-availability.jobmanager.port: 6070
    jobmanager.archive.fs.dir: s3://...
    state.backend: rocksdb
    state.backend.fs.checkpointdir: s3://...
    state.checkpoints.dir: s3://...
    state.checkpoints.num-retained: 2
    web.log.path: /var/log/flink.log
    web.upload.dir: /var/flink-recovery/flink-web-upload
    zookeeper.sasl.disable: true
    s3.access-key: __S3_ACCESS_KEY_ID__
    s3.secret-key: __S3_SECRET_KEY__

以下是 flink-jobmaster 有状态集上的容器端口:

ports:
- containerPort: 8081
  name: ui
- containerPort: 6123
  name: rpc
- containerPort: 6124
  name: blob
- containerPort: 6125
  name: query
- containerPort: 9249
  name: prometheus
- containerPort: 6070
  name: ha

我希望 flink 能够从 s3 中的检查点成功恢复，但作业管理器在启动时崩溃，并出现以下堆栈跟踪:

2019-06-18 14:02:05,123 ERROR org.apache.flink.runtime.entrypoint.ClusterEntrypoint         - Fatal error occurred in the cluster entrypoint.
org.apache.flink.util.FlinkException: JobMaster for job f13131ca883d6cf92f69a52cff4f1017 failed.
    at org.apache.flink.runtime.dispatcher.Dispatcher.jobMasterFailed(Dispatcher.java:759)
    at org.apache.flink.runtime.dispatcher.Dispatcher.lambda$startJobManagerRunner$6(Dispatcher.java:339)
    at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
    at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
    at java.util.concurrent.CompletableFuture$Completion.run(CompletableFuture.java:442)
    at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRunAsync(AkkaRpcActor.java:332)
    at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.handleRpcMessage(AkkaRpcActor.java:158)
    at org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.handleRpcMessage(FencedAkkaRpcActor.java:70)
    at org.apache.flink.runtime.rpc.akka.AkkaRpcActor.onReceive(AkkaRpcActor.java:142)
    at org.apache.flink.runtime.rpc.akka.FencedAkkaRpcActor.onReceive(FencedAkkaRpcActor.java:40)
    at akka.actor.UntypedActor$$anonfun$receive$1.applyOrElse(UntypedActor.scala:165)
    at akka.actor.Actor$class.aroundReceive(Actor.scala:502)
    at akka.actor.UntypedActor.aroundReceive(UntypedActor.scala:95)
    at akka.actor.ActorCell.receiveMessage(ActorCell.scala:526)
    at akka.actor.ActorCell.invoke(ActorCell.scala:495)
    at akka.dispatch.Mailbox.processMailbox(Mailbox.scala:257)
    at akka.dispatch.Mailbox.run(Mailbox.scala:224)
    at akka.dispatch.Mailbox.exec(Mailbox.scala:234)
    at scala.concurrent.forkjoin.ForkJoinTask.doExec(ForkJoinTask.java:260)
    at scala.concurrent.forkjoin.ForkJoinPool$WorkQueue.runTask(ForkJoinPool.java:1339)
    at scala.concurrent.forkjoin.ForkJoinPool.runWorker(ForkJoinPool.java:1979)
    at scala.concurrent.forkjoin.ForkJoinWorkerThread.run(ForkJoinWorkerThread.java:107)
Caused by: org.apache.flink.util.FlinkException: Could not start the job manager.
    at org.apache.flink.runtime.jobmaster.JobManagerRunner.lambda$verifyJobSchedulingStatusAndStartJobManager$2(JobManagerRunner.java:340)
    at java.util.concurrent.CompletableFuture.uniWhenComplete(CompletableFuture.java:760)
    at java.util.concurrent.CompletableFuture$UniWhenComplete.tryFire(CompletableFuture.java:736)
    at java.util.concurrent.CompletableFuture$Completion.run(CompletableFuture.java:442)
    at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511)
    at java.util.concurrent.FutureTask.run(FutureTask.java:266)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.access$201(ScheduledThreadPoolExecutor.java:180)
    at java.util.concurrent.ScheduledThreadPoolExecutor$ScheduledFutureTask.run(ScheduledThreadPoolExecutor.java:293)
    at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
    at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
    at java.lang.Thread.run(Thread.java:748)
Caused by: akka.pattern.AskTimeoutException: Ask timed out on [Actor[akka://flink/user/jobmanager_2#-806528277]] after [10000 ms]. Sender[null] sent message of type "org.apache.flink.runtime.rpc.messages.UnfencedMessage".
    at akka.pattern.PromiseActorRef$$anonfun$1.apply$mcV$sp(AskSupport.scala:604)
    at akka.actor.Scheduler$$anon$4.run(Scheduler.scala:126)
    at scala.concurrent.Future$InternalCallbackExecutor$.unbatchedExecute(Future.scala:601)
    at scala.concurrent.BatchingExecutor$class.execute(BatchingExecutor.scala:109)
    at scala.concurrent.Future$InternalCallbackExecutor$.execute(Future.scala:599)
    at akka.actor.LightArrayRevolverScheduler$TaskHolder.executeTask(LightArrayRevolverScheduler.scala:329)
    at akka.actor.LightArrayRevolverScheduler$$anon$4.executeBucket$1(LightArrayRevolverScheduler.scala:280)
    at akka.actor.LightArrayRevolverScheduler$$anon$4.nextTick(LightArrayRevolverScheduler.scala:284)
    at akka.actor.LightArrayRevolverScheduler$$anon$4.run(LightArrayRevolverScheduler.scala:236)
    ... 1 more

我在这里真的很茫然。我不太了解 flink 的内部工作原理，所以这个异常(exception)对我来说意义不大。任何线索将不胜感激。

编辑:我一直在浏览 Flink 源代码。当领导者尝试从存储在 zookeeper 中的检查点信息恢复其作业图时，在选举领导者后抛出此异常。弄清楚这个异常的确切来源是相当麻烦的，因为它都包含在 future 和 akka 中。我的猜测是，它发生在作业管理器启动 JobMaster 子流程以安排作业图之后。有点猜测，但我认为作业管理器正试图从其 JobMaster 获取新作业的状态，但 JobMaster 线程已进入死锁(也许它也可能已经死亡，尽管我希望那时会有堆栈跟踪)和所以询问超时。看起来像一个真正的笨蛋。

注意: UnfencedMessage请求的目的是在作业管理器中本地使用(这与接收参与者是异常中的作业管理器一致)，因此我们可以消除 JobMaster 和任务管理器之间的网络错误配置。

最佳答案

我在使用 /jars/upload 执行之前在 flink 上暂存 jars端点。当上传的 jar 太多时，似乎 flink 的性能会下降。所有端点都变得无响应，包括 /jobs/<job_id>端点。在 flink UI 中加载作业图概览需要 1 - 2 分钟。我想这个休息端点使用与作业管理器相同的 akka Actor 。我想我一定已经达到了开始导致超时的临界点。我已经将 30 多个 jar 的数量减少到只有 4 个最新版本，并且 flink 再次响应。

关于kubernetes - 超时尝试为检查点作业启动 flink 作业主机，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/56665205/

文章推荐： java - Hibernate 空间服务配置错误

文章推荐： java - 创建自定义微调器时如何实现 getView

文章推荐： cuda - 以编程方式检索每个多处理器的最大块数

文章推荐： java - 消费者连接到哪个分区？

kubernetes - Kubernetes 中的 skydns 服务无法解析 'kubernetes'
core@core-1-94 ~ $ kubectl exec -it busybox -- nslookup kubernetesServer: 10.100.0.10Address 1: 1
kubernetes - 如何从 kubernetes 集群注销 kubernetes 节点
我有一个节点错误地注册在集群 B 上，而它实际上为集群 A 服务。这里“在集群 B 上注册”意味着我可以从 kubectl get node 看到节点来自集群 B。我想从集群 B 中取消注册这个节
kubernetes - Kubernetes 和 Kubernetes Engine 有什么区别？
据我所知，Kubernetes 是一个用于部署和管理容器的编排框架。另一方面，Kubernetes Engine 负责集群的伸缩，以及管理容器镜像。从上面看，它们似乎是同一件事或非常相似。从上面的定
kubernetes - 使用非管理权限在本地运行 Kubernetes 并且缺少 kubernetes 配置文件
我正在学习 Kubernetes 和 Docker，以启动一个简单的 Python 网络应用程序。我对上述所有技术都不熟悉。下面是我计划的方法: 安装 Kubernetes。在本地启动并运行集群。
kubernetes - kubernetes 就绪检查应该检查什么
我了解如何在 kubernetes 中设置就绪探测器，但是是否有任何关于在调用就绪探测器时微服务应实际检查哪些内容的最佳实践？两个具体例子: 一个面向数据库的微服务，如果没有有效的数据库连接，几乎所有
kubernetes - Kubernetes 调度器依赖于哪些指标？
Kubernetes 调度程序是仅根据请求的资源和节点在服务器当前快照中的可用资源将 Pod 放置在节点上，还是同时考虑节点的历史资源利用率？最佳答案在官方Kubernetes documenta
kubernetes - kubernetes 命名空间中部署定义的唯一性
我们有多个环境，如 dev、qa、prepod 等。我们有基于环境的命名空间。现在我们将服务命名为 environment 作为后缀。例如。， apiVersion: apps/v1
kubernetes - Kubernetes 中命名空间的使用
我有一个关于命名空间的问题，并寻求您的专业知识来消除我的疑虑。我对命名空间的理解是，它们用于在团队和项目之间引入逻辑边界。当然，我在某处读到命名空间可用于在同一集群中引入/定义不同的环境。例如测
kubernetes - Kubernetes 中用户或角色的命名空间
我知道角色用于授予用户或服务帐户在特定命名空间中执行操作的权限。一个典型的角色定义可能是这样的 kind: Role apiVersion: rbac.authorization.k8s.io/v1
kubernetes - Kubernetes 中的服务位于何处？
我正在学习 Kubernetes，目前正在深入研究高可用性，虽然我知道我可以使用本地(或远程)etcd 以及一组高可用性的控制平面(API 服务器、 Controller 、调度程序)来设置minio
kubernetes - Kubernetes 中的服务帐户和上下文有什么区别？
两者之间有什么实际区别？我什么时候应该选择一个？例如，如果我想让我的项目中的开发人员仅查看 pod 的日志。似乎可以通过 RoleBinding 为服务帐户或上下文分配这些权限。最佳答案什么是服
kubernetes - Kubernetes 上基于时间的容器调度？
根据基于时间的计划执行容器或 Pod 的推荐方法是什么？例如，每天凌晨 2 点运行 10 分钟的任务。在传统的 linux 服务器上，crontab 很容易工作，而且显然在容器内部仍然是可能的。然而
kubernetes - kubernetes 中的入口和服务网格有什么区别？
有人可以帮助我了解服务网格本身是否是一种入口，或者服务网格和入口之间是否有任何区别？最佳答案 “入口”负责将流量路由到集群中(来自 Docs:管理对集群中服务的外部访问的 API 对象，通常是 HT
kubernetes - Kubernetes 中的多个集群
我是 kubernetes 集群的新手。我有一个简单的问题。我在多个 kubernetes 集群中。 kubernetes 中似乎有多个集群可用。所以 kubernetes 中的“多集群”意味着:
kubernetes - Kubernetes-滚动更新可以杀死旧的pod而不产生新的pod
我目前正在使用Deployments管理我的K8S集群中的Pod。我的某些部署需要2个Pod /副本，一些部署需要3个Pod /副本，而有些部署只需要1个Pod /副本。我遇到的问题是只有一个 po
kubernetes - Kubernetes 的连接服务是什么？
我看过官方文档:https://kubernetes.io/docs/tasks/setup-konnectivity/setup-konnectivity/但我还是没明白它的意思。我有几个问题:
kubernetes - Kubernetes 上的批处理
这里的任何人都有在 kubernetes 上进行批处理(例如 spring 批处理)的经验？这是个好主意吗？如果我们使用 kubernetes 自动缩放功能，如何防止批处理处理相同的数据？谢谢你。最
kubernetes - 避免 kubernetes 调度程序在 kubernetes 集群的单个节点中运行所有 pod
我有一个具有 4 个节点和一个主节点的 Kubernetes 集群。我正在尝试在所有节点中运行 5 个 nginx pod。目前，调度程序有时在一台机器上运行所有 pod，有时在不同的机器上运行。如
kubernetes - 如何安装特定版本的 Kubernetes？
我在运行 Raspbian Stretch 的 Raspberry PI 3 上使用以下命令安装最新版本的 Kubernetes。 $ curl -s https://packages.cloud.g
kubernetes - Kubernetes 中容器端口和目标端口的区别？
container port 与 Kubernetes 容器中的 targetports 有何不同？它们是否可以互换使用，如果可以，为什么？我遇到了下面的代码片段，其中 containerPort

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

kubernetes - 超时尝试为检查点作业启动 flink 作业主机