apache-flink - 为什么独立HA Flink集群不将检查点保存到 `state.backend.fs.checkpointdir`目录？-6ren

apache-flink - 为什么独立HA Flink集群不将检查点保存到 `state.backend.fs.checkpointdir`目录？

转载作者：行者123 更新时间：2023-12-02 01:35:05

25

4

我正在运行独立的 HA Flink 集群，它每分钟都会对我的流程进行检查点，但我在 state.backend.fs.checkpointdir 目录中没有看到它们。

flink-conf.yaml

jobmanager.heap.mb: 1024
jobmanager.web.port: 8081

taskmanager.data.port: 6121
taskmanager.heap.mb: 2048
taskmanager.numberOfTaskSlots: 4
taskmanager.memory.preallocate: false
taskmanager.tmp.dirs: /flink/data/task_manager

blob.server.port: 6130
blob.storage.directory: /flink/data/blob_storage

parallelism.default: 4

state.backend: filesystem
state.backend.fs.checkpointdir: s3a://example-staging-flink/checkpoints

restart-strategy: none
restart-strategy.fixed-delay.attempts: 2
restart-strategy.fixed-delay.delay: 60s

recovery.mode: zookeeper
recovery.zookeeper.quorum: zookeeper-1.stag.local:2181,zookeeper-2.stag.local:2181,zookeeper-3.stag.local:2181
recovery.zookeeper.path.root: /example_staging/flink
recovery.zookeeper.storageDir: s3a://example-staging-flink/recovery
recovery.jobmanager.port: 6123

fs.hdfs.hadoopconf: /flink/conf

如您所见，检查点应保存到 s3a://example-staging-flink/checkpoints 目录，但我没有看到它们:

~ s3cmd ls s3://example-staging-flink/
                       DIR   s3://example-staging-flink/recovery/
~ s3cmd ls s3://example-staging-flink/recovery/
                       DIR   s3://example-staging-flink/recovery/blob/
2016-04-15 10:33   1137280   s3://example-staging-flink/recovery/completedCheckpoint6eab84c79b02
2016-04-15 01:23    506961   s3://example-staging-flink/recovery/completedCheckpoint9e8f3d1254aa
2016-04-15 09:39    149987   s3://example-staging-flink/recovery/submittedJobGraph0bf82ada1dc6
~ s3cmd ls s3://example-staging-flink/recovery/blob/
                       DIR   s3://example-staging-flink/recovery/blob/cache/
~ s3cmd ls s3://example-staging-flink/recovery/blob/cache/
2016-04-14 13:00   3023995   s3://example-staging-flink/recovery/blob/cache/blob_0b6e57360c05128b3c91d75341785df64b91217b
2016-04-15 09:39   3066784   s3://example-staging-flink/recovery/blob/cache/blob_3ef7422ce7b5e5cbf1f031b0de1561159109d7f9
2016-04-14 12:54   3023898   s3://example-staging-flink/recovery/blob/cache/blob_5062028a8cab14daaeb19e51f01a02da3a8e515a
2016-04-14 12:29   3025864   s3://example-staging-flink/recovery/blob/cache/blob_7809e559953291cab482e9cf3324457ad07d6d05

JobManager日志有以下日志:

2016-04-21 12:34:55,684 INFO  org.apache.flink.runtime.checkpoint.SavepointStoreFactory     - Using job manager savepoint state backend.
2016-04-25 01:13:14,569 INFO  org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore  - Initialized in '/checkpoints/a5f89242c729190e46baf409768960fb'.
2016-04-25 01:13:14,581 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinatorDeActivator  - Create CheckpointCoordinatorDeActivator
2016-04-25 01:13:14,583 INFO  org.apache.flink.runtime.checkpoint.SavepointCoordinatorDeActivator  - Create SavepointCoordinatorDeActivator
2016-04-25 01:13:14,583 INFO  org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore  - Recovering checkpoints from ZooKeeper.
2016-04-25 01:13:14,594 INFO  org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore  - Found 1 checkpoints in ZooKeeper.
2016-04-25 01:13:14,875 INFO  org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore  - Initialized with Checkpoint 1015 @ 1461546663803 for a5f89242c729190e46baf409768960fb. Removing all older checkpoints.
2016-04-25 01:18:15,247 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Triggering checkpoint 1016 @ 1461547095238
2016-04-25 01:18:18,955 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Completed checkpoint 1016 (in 153 ms)
2016-04-25 01:23:15,242 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Triggering checkpoint 1017 @ 1461547395238
2016-04-25 01:23:17,357 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Completed checkpoint 1017 (in 138 ms)
2016-04-25 01:28:15,244 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Triggering checkpoint 1018 @ 1461547695239
2016-04-25 01:28:18,300 INFO  org.apache.flink.runtime.checkpoint.CheckpointCoordinator     - Completed checkpoint 1018 (in 101 ms)

那么，谁能解释一下为什么 Apache Flink 的独立 HA 集群不将检查点保存到存储中？

最佳答案

如果实际状态小于给定阈值，Flink 不会将其存储到文件中。默认阈值(可通过 state.backend.fs.memory-threshold 调整)为 1024 字节。低于此阈值，状态将与检查点元数据一起存储。

这个阈值背后的想法是，在使用分布式文件系统时，将小状态写入磁盘相对昂贵。元数据无论如何都需要写入，只是多存储一点数据。

设置 state.backend.fs.memory-threshold: 0 应始终将状态写入检查点目录，无论其大小如何。

关于apache-flink - 为什么独立HA Flink集群不将检查点保存到 `state.backend.fs.checkpointdir`目录？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/36645274/

25

4

0

文章推荐： r - 寻找一种优化的方式来替换长文档中的列表模式

文章推荐： java - 如何在运行时切换绑定(bind) (Camel Rest Dsl)

文章推荐： AngularJS:如何在 Controller 中将字符串与 $scope 值连接起来

文章推荐： java - @Cacheput 的实际用例是什么？

hadoop - 将非 HA Hadoop 集群转换为 HA 集群
我有一个具有 3 个节点的非 HA Hadoop 设置:一个 NameNode 和 2 个 DataNode。 NameNode是一个4GB内存和20GB硬盘的服务器，而每个DataNode有8GB内
RabbitMQ ha-promote-on-shutdown 与 ha-promote-on-failure
关于 https://www.rabbitmq.com/ha.html我读到了这两个属性: ha-promote-on-shutdown ha-promote-on-failure 但是我找不到关于这
python - 如果 x 是列表，为什么 x += "ha"工作，而 x = x + "ha"抛出异常？
据我所知，列表的 + op 只要求第二个操作数是可迭代的，“ha”显然是。在代码中: >>> x = [] >>> x += "ha" >>> x ['h', 'a'] >>> x = x + "h
没有集群的Redis HA
我试图在网上找到更多关于它的信息，但似乎找不到合适的答案。我们的新应用程序在顶部使用 HA 负载均衡器将访问者分配到集群 ampq 和集群 mysql，一切都完美无缺。现在我们已经决定我们需要将我
RabbitMQ HA 和故障转移
我已经阅读了 clustering和 HA章节并对 RabbitMQ 集群有了一个公平的理解。我不明白的一件事是，集群上有 2 个以上的节点和一组 HA 队列，客户端如何建立连接，以便在一个节点发生故
hadoop - HBase使用HDFS HA
我正在尝试使用Hadoop HA设置hbase ha。我已经设置了Hadoop HA，并对其进行了测试。但是在HBase安装中，启动时出现以下错误: 2020-05-02 16:11:09,336
networking - 通过VPN的Neo4j HA？
我目前正在创建3个Neo4j高可用性服务器。我的业务逻辑将一台服务器作为专用主服务器，而将另外两台计算机作为专用从服务器。我的从服务器与主服务器存在于完全不同的数据中心中。在两个应用程序之间建立链接
postgresql - 带有Kubernetes和Gluster的GitLab HA
我目前在Docker上安装了GitLab omnibus。我计划通过将其添加到Kubernetes来具有相同的HA，并使用Gluster保持持久性。我玩过用Gluster配置Kubernetes的游戏
docker - 生产中 - HA
如何使用主动/主动或主动/备用 HA 系统在生产环境中运行 docker？有任何指南或最佳实践吗？我正在考虑 3 个场景: 1) NFS - 用于两台服务器 - 准备有 docker-machine
RabbitMQ HA 镜像同步微调
我使用rabbitmq-server-3.6.1。似乎有两个选项如何设置同步批量大小。第一个是策略选项“ha-sync-batch-size”。 RabbitMQ 文档 here 中对此进行了描述。
linux - HA - 心跳和网络服务器
*我正在使用 hearbeat 2.1.4 2 个节点正常工作，但是当我在 node1 中手动停止 httpd 时，heartbeat 不会切换到 node02。如何解决这个问题？？* 最佳答案该版
Hadoop HA Namenode远程访问
我正在使用 HA 名称节点配置 Hadoop 2.2.0 稳定版，但我不知道如何配置对集群的远程访问。我配置了手动故障转移的 HA 名称节点，我定义了 dfs.nameservices，我可以从集群
docker - 比较我的用例的 HA 集群平台
我一直在尝试 Docker Swarm 并研究其他解决方案，例如 Kubernetes，但我就是不知道什么最适合我的用例，我可以从专家那里获得一些帮助，所以非常欢迎您的意见. 我对要构建的云有一些要求
scala - 从Spark作业访问HDFS HA(UnknownHostException错误)
我有Apache Mesos 0.22.1集群(3个主节点和5个从节点)，在HA配置和Spark 1.5.1框架中运行Cloudera HDFS(2.5.0-cdh5.3.1)。当我尝试 Spark
hadoop - Hadoop HA:-使用新名称节点恢复失败的名称节点
我正在阅读《 Hadoop最终指导》中的“高可用性”，以下内容并不清楚， To recover from a failed namenode in this situation, an adminis
docker - 使Docker Registry HA
请注意:这是一个非常相似的问题as this one，但是我断言这不是骗子!另一个问题显然是基于(较旧的)基于Python的Docker注册表，而不是用GoLang编写的最新注册表，而且看起来有很大不
MySQL 代理 HA，节点故障后无需重新连接
我使用 MySQL 和 Galera wsrep 来获得同步复制，该部分已启动并运行我需要设置一种代理来处理客户端连接。由于集群中的任何节点都可能发生故障，因此客户端不会直接连接节点，而只能通过代理
java - HA Karaf 酒窖群
我的机器上的一个地窖组中有三个 karaf 节点。第一个节点 (lb_node) 用作负载均衡器，其他两个节点(1_node 和 2_node)用作服务节点(具有已部署的功能)。两个节点都有可用的 /
c# - 不支持区域性名称 'ha-latn'
我正在使用 Win-8 机器并尝试创建多语言网站。我使用的是法语、阿拉伯语和豪萨语。我的代码运行完美，但是当我选择豪萨语时出现错误: Culture name 'ha-latn' is not s
hadoop - HDFS HA 可能性
最近，我成功地为 HDFS 和 YARN 启用了 HA。现在我有一个事件的和备用的名称节点，自动故障转移工作正常。我正在使用 Cloudera Manager 和 CDH 5。我有以下问题。例如，

首页

博学

6Ren·AI

商城

apache-flink - 为什么独立HA Flink集群不将检查点保存到 `state.backend.fs.checkpointdir`目录？