kubernetes - Flink HA JobManager 集群无法选举领导者-6ren

kubernetes - Flink HA JobManager 集群无法选举领导者

转载作者：行者123 更新时间：2023-12-02 04:27:45

24

4

我正在尝试在 kubernetes 上部署 Apache Flink 1.6。按照 job manager high availabilty 上的教程进行操作
页。我已经有一个运行中的 Zookeeper 3.10 集群，从它的日志中我可以看到它很健康并且没有配置为 Kerberos 或 SASL。所有 ACL 规则都让每个客户端都可以写入和读取 znode。当我启动集群时，一切都按预期工作，每个 JobManager 和 TaskManager pod 都成功进入运行状态，我可以从主 JobManager 的 web-ui 中看到连接的 TaskManager 实例。但是当我删除主 JobManager 的 pod 时，其他 JobManager pod 无法在集群中的任何 JobManager-UI 上选择具有以下错误消息的领导者。

{
  "errors": [
    "Service temporarily unavailable due to an ongoing leader election. Please refresh."
  ]
}

即使我重新启动此页面，也没有任何变化。它停留在此错误消息上。
我的怀疑是，这个问题与 high-availability.storageDir 有关。选项。我已经有一个工作(用 CloudExplorer 测试) minio s3 部署到我的 k8s 集群。但是flink 不能将任何内容写入 s3 服务器。在这里您可以找到来自 github-gist 的所有配置.

最佳答案

根据日志，它看起来好像 TaskManager无法连接到新的领导者。我认为这对于 web ui 是一样的。日志说它尝试连接到 flink-job-manager-0.flink-job-svc.flink.svc.cluster.local/10.244.3.166:44013 .我不能从日志中说 flink-job-manager-1绑定(bind)到这个IP。但我怀疑 headless 服务可能会返回多个 IP，而 Flink 会选择错误/旧的 IP。你能登录flink-job-manager-1吗？ pod 并检查它的 IP 地址是什么？

我认为您应该能够通过为每个 JobManager 定义来解决此问题。专用服务，或者如果您使用 pod 主机名。

关于kubernetes - Flink HA JobManager 集群无法选举领导者，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52235740/

24

4

0

文章推荐： firebaseui - 无法解析版本 4.0.1 中的符号 'AuthUI'

文章推荐： wcf - WCF ClaimsAuthenticationManager 中的依赖注入(inject)

文章推荐： c# - 将相对路径转换为绝对路径

文章推荐： react-native - REPL - Figwheel 无法连接到重生应用程序

r - 选举/人口普查数据的多变量线性回归及由此产生的误差
我有这些数据: library(tidyverse) df % summary() 我收到此错误: Error in lm.fit(x, y, offset = offset, singular
solr - Leader 选举 SolrCloud + Zookeeper
我有一个运行着 3 个实例的工作 Zookeeper 集合，还有一个带有一些 solr 实例的 solrcloud 集群。我创建了一个设置为 2 个分片的集合。然后我: create 1 core o
go - 如何使用 etcd 选举 api
etcd v3 的新主要版本引入了新的并发原语。其中之一是选举。该 api 不支持开始事件并返回(其他)获胜者，这意味着我们需要查询领导者。这使得事情变得复杂，因为现在我们有两条并发路径，一条运行事
go - 了解 etcd Leader 选举 API
我试图理解 etcd election api 提供的各种功能以及它们在语义上的含义。在他们的官方文档中非常简单地提到了每个功能的作用，并且没有提供示例。例如我们有方法: func (e *Elec
spring integration leader 选举 jdbc 无法断开连接
我正在尝试使用 JDBC 在 spring-integration 中使用领导者选举。只要连接了数据库，它就可以工作。一旦数据库连接断开，领导者选举就会停止，该节点上的领导者信息将保持不变。据我对代

首页

博学

6Ren·AI

商城

kubernetes - Flink HA JobManager 集群无法选举领导者