- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在运行独立的 HA Flink 集群,它每分钟都会对我的流程进行检查点,但我在 state.backend.fs.checkpointdir
目录中没有看到它们。
flink-conf.yaml
jobmanager.heap.mb: 1024
jobmanager.web.port: 8081
taskmanager.data.port: 6121
taskmanager.heap.mb: 2048
taskmanager.numberOfTaskSlots: 4
taskmanager.memory.preallocate: false
taskmanager.tmp.dirs: /flink/data/task_manager
blob.server.port: 6130
blob.storage.directory: /flink/data/blob_storage
parallelism.default: 4
state.backend: filesystem
state.backend.fs.checkpointdir: s3a://example-staging-flink/checkpoints
restart-strategy: none
restart-strategy.fixed-delay.attempts: 2
restart-strategy.fixed-delay.delay: 60s
recovery.mode: zookeeper
recovery.zookeeper.quorum: zookeeper-1.stag.local:2181,zookeeper-2.stag.local:2181,zookeeper-3.stag.local:2181
recovery.zookeeper.path.root: /example_staging/flink
recovery.zookeeper.storageDir: s3a://example-staging-flink/recovery
recovery.jobmanager.port: 6123
fs.hdfs.hadoopconf: /flink/conf
如您所见,检查点应保存到 s3a://example-staging-flink/checkpoints
目录,但我没有看到它们:
~ s3cmd ls s3://example-staging-flink/
DIR s3://example-staging-flink/recovery/
~ s3cmd ls s3://example-staging-flink/recovery/
DIR s3://example-staging-flink/recovery/blob/
2016-04-15 10:33 1137280 s3://example-staging-flink/recovery/completedCheckpoint6eab84c79b02
2016-04-15 01:23 506961 s3://example-staging-flink/recovery/completedCheckpoint9e8f3d1254aa
2016-04-15 09:39 149987 s3://example-staging-flink/recovery/submittedJobGraph0bf82ada1dc6
~ s3cmd ls s3://example-staging-flink/recovery/blob/
DIR s3://example-staging-flink/recovery/blob/cache/
~ s3cmd ls s3://example-staging-flink/recovery/blob/cache/
2016-04-14 13:00 3023995 s3://example-staging-flink/recovery/blob/cache/blob_0b6e57360c05128b3c91d75341785df64b91217b
2016-04-15 09:39 3066784 s3://example-staging-flink/recovery/blob/cache/blob_3ef7422ce7b5e5cbf1f031b0de1561159109d7f9
2016-04-14 12:54 3023898 s3://example-staging-flink/recovery/blob/cache/blob_5062028a8cab14daaeb19e51f01a02da3a8e515a
2016-04-14 12:29 3025864 s3://example-staging-flink/recovery/blob/cache/blob_7809e559953291cab482e9cf3324457ad07d6d05
JobManager日志有以下日志:
2016-04-21 12:34:55,684 INFO org.apache.flink.runtime.checkpoint.SavepointStoreFactory - Using job manager savepoint state backend.
2016-04-25 01:13:14,569 INFO org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore - Initialized in '/checkpoints/a5f89242c729190e46baf409768960fb'.
2016-04-25 01:13:14,581 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinatorDeActivator - Create CheckpointCoordinatorDeActivator
2016-04-25 01:13:14,583 INFO org.apache.flink.runtime.checkpoint.SavepointCoordinatorDeActivator - Create SavepointCoordinatorDeActivator
2016-04-25 01:13:14,583 INFO org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore - Recovering checkpoints from ZooKeeper.
2016-04-25 01:13:14,594 INFO org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore - Found 1 checkpoints in ZooKeeper.
2016-04-25 01:13:14,875 INFO org.apache.flink.runtime.checkpoint.ZooKeeperCompletedCheckpointStore - Initialized with Checkpoint 1015 @ 1461546663803 for a5f89242c729190e46baf409768960fb. Removing all older checkpoints.
2016-04-25 01:18:15,247 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 1016 @ 1461547095238
2016-04-25 01:18:18,955 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed checkpoint 1016 (in 153 ms)
2016-04-25 01:23:15,242 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 1017 @ 1461547395238
2016-04-25 01:23:17,357 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed checkpoint 1017 (in 138 ms)
2016-04-25 01:28:15,244 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Triggering checkpoint 1018 @ 1461547695239
2016-04-25 01:28:18,300 INFO org.apache.flink.runtime.checkpoint.CheckpointCoordinator - Completed checkpoint 1018 (in 101 ms)
那么,谁能解释一下为什么 Apache Flink 的独立 HA 集群不将检查点保存到存储中?
最佳答案
如果实际状态小于给定阈值,Flink 不会将其存储到文件中。默认阈值(可通过 state.backend.fs.memory-threshold 调整)为 1024 字节。低于此阈值,状态将与检查点元数据一起存储。
这个阈值背后的想法是,在使用分布式文件系统时,将小状态写入磁盘相对昂贵。元数据无论如何都需要写入,只是多存储一点数据。
设置 state.backend.fs.memory-threshold: 0
应始终将状态写入检查点目录,无论其大小如何。
关于apache-flink - 为什么独立HA Flink集群不将检查点保存到 `state.backend.fs.checkpointdir`目录?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/36645274/
我有一个具有 3 个节点的非 HA Hadoop 设置:一个 NameNode 和 2 个 DataNode。 NameNode是一个4GB内存和20GB硬盘的服务器,而每个DataNode有8GB内
关于 https://www.rabbitmq.com/ha.html我读到了这两个属性: ha-promote-on-shutdown ha-promote-on-failure 但是我找不到关于这
据我所知,列表的 + op 只要求第二个操作数是可迭代的,“ha”显然是。 在代码中: >>> x = [] >>> x += "ha" >>> x ['h', 'a'] >>> x = x + "h
我试图在网上找到更多关于它的信息,但似乎找不到合适的答案。 我们的新应用程序在顶部使用 HA 负载均衡器将访问者分配到集群 ampq 和集群 mysql,一切都完美无缺。 现在我们已经决定我们需要将我
我已经阅读了 clustering和 HA章节并对 RabbitMQ 集群有了一个公平的理解。我不明白的一件事是,集群上有 2 个以上的节点和一组 HA 队列,客户端如何建立连接,以便在一个节点发生故
我正在尝试使用Hadoop HA设置hbase ha。 我已经设置了Hadoop HA,并对其进行了测试。 但是在HBase安装中,启动时出现以下错误: 2020-05-02 16:11:09,336
我目前正在创建3个Neo4j高可用性服务器。我的业务逻辑将一台服务器作为专用主服务器,而将另外两台计算机作为专用从服务器。我的从服务器与主服务器存在于完全不同的数据中心中。 在两个应用程序之间建立链接
我目前在Docker上安装了GitLab omnibus。我计划通过将其添加到Kubernetes来具有相同的HA,并使用Gluster保持持久性。我玩过用Gluster配置Kubernetes的游戏
如何使用主动/主动或主动/备用 HA 系统在生产环境中运行 docker?有任何指南或最佳实践吗? 我正在考虑 3 个场景: 1) NFS - 用于两台服务器 - 准备有 docker-machine
我使用rabbitmq-server-3.6.1。 似乎有两个选项如何设置同步批量大小。第一个是策略选项“ha-sync-batch-size”。 RabbitMQ 文档 here 中对此进行了描述。
*我正在使用 hearbeat 2.1.4 2 个节点正常工作,但是当我在 node1 中手动停止 httpd 时,heartbeat 不会切换到 node02。如何解决这个问题??* 最佳答案 该版
我正在使用 HA 名称节点配置 Hadoop 2.2.0 稳定版,但我不知道如何配置对集群的远程访问。 我配置了手动故障转移的 HA 名称节点,我定义了 dfs.nameservices,我可以从集群
我一直在尝试 Docker Swarm 并研究其他解决方案,例如 Kubernetes,但我就是不知道什么最适合我的用例,我可以从专家那里获得一些帮助,所以非常欢迎您的意见. 我对要构建的云有一些要求
我有Apache Mesos 0.22.1集群(3个主节点和5个从节点),在HA配置和Spark 1.5.1框架中运行Cloudera HDFS(2.5.0-cdh5.3.1)。 当我尝试 Spark
我正在阅读《 Hadoop最终指导》中的“高可用性”,以下内容并不清楚, To recover from a failed namenode in this situation, an adminis
请注意:这是一个非常相似的问题as this one,但是我断言这不是骗子!另一个问题显然是基于(较旧的)基于Python的Docker注册表,而不是用GoLang编写的最新注册表,而且看起来有很大不
我使用 MySQL 和 Galera wsrep 来获得同步复制,该部分已启动并运行 我需要设置一种代理来处理客户端连接。由于集群中的任何节点都可能发生故障,因此客户端不会直接连接节点,而只能通过代理
我的机器上的一个地窖组中有三个 karaf 节点。第一个节点 (lb_node) 用作负载均衡器,其他两个节点(1_node 和 2_node)用作服务节点(具有已部署的功能)。两个节点都有可用的 /
我正在使用 Win-8 机器并尝试创建多语言网站。 我使用的是法语、阿拉伯语和豪萨语。 我的代码运行完美,但是当我选择豪萨语时出现错误: Culture name 'ha-latn' is not s
最近,我成功地为 HDFS 和 YARN 启用了 HA。现在我有一个事件的和备用的名称节点,自动故障转移工作正常。我正在使用 Cloudera Manager 和 CDH 5。 我有以下问题。 例如,
我是一名优秀的程序员,十分优秀!