gpt4 book ai didi

amazon-web-services - CoreOS 部分集群更新

转载 作者:行者123 更新时间:2023-12-04 08:05:15 28 4
gpt4 key购买 nike

我正在尝试在 VPC 内的 AWS EC2 实例上设置一个小型 CoreOS 集群。对于这个练习,我使用了两个自动缩放组,其中一个是 3 台机器,它们将形成核心 etcd 和 consul 集群,然后是第二个自动缩放组,目前只有一个节点,该节点将随着应用程序的增长而实际扩展。它们都在一个共同的 etcd 集群中。

本周 coreos.com 将构建 681 发布到稳定分支,其中一个节点立即更新到 681.0,但 48 小时后,主集群中的 3 个节点仍保持版本 647.2。当我检查日志时,我看到以下内容:

Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: [0611/142517:INFO:libcurl_http_fetcher.cc(48)] Starting/Resuming transfer
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: [0611/142517:INFO:libcurl_http_fetcher.cc(164)] Setting up curl options for HTTPS
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: [0611/142517:INFO:libcurl_http_fetcher.cc(427)] Setting up timeout source: 1 seconds.
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: [0611/142517:INFO:libcurl_http_fetcher.cc(240)] HTTP response code: 200
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: [0611/142517:INFO:libcurl_http_fetcher.cc(297)] Transfer completed (200), 267 bytes downloaded
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: [0611/142517:INFO:omaha_request_action.cc(574)] Omaha request response: <?xml version="1.0" encoding="UTF-8"?>
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: <response protocol="3.0" server="update.core-os.net">
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: <daystart elapsed_seconds="0"></daystart>
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: <app appid="e96281a6-xxxx-xxxx-xxxx-xxxxxxxxxxxx" status="ok">
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: <updatecheck status="noupdate"></updatecheck>
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: </app>
Jun 11 14:25:17 ip-10-0-68-116.ec2.internal update_engine[477]: </response>

因此节点得到没有更新的响应。

这是 coreos 团队尝试负载平衡他们的文件服务器的方式,还是有一些额外的配置?这是 coreos 试图插入我购买付费服务的方式吗?我对更新过程的理解是节点会像多米诺骨牌一样一个接一个地更新。

这是我当前的集群状态:

for m in $(fleetctl list-machines -fields="machine" -full -no-legend); do fleetctl ssh $m cat /etc/lsb-release; done
DISTRIB_ID=CoreOS
DISTRIB_RELEASE=647.2.0
DISTRIB_CODENAME="Red Dog"
DISTRIB_DESCRIPTION="CoreOS 647.2.0"
DISTRIB_ID=CoreOS
DISTRIB_RELEASE=681.0.0
DISTRIB_CODENAME="Red Dog"
DISTRIB_DESCRIPTION="CoreOS 681.0.0"
DISTRIB_ID=CoreOS
DISTRIB_RELEASE=647.2.0
DISTRIB_CODENAME="Red Dog"
DISTRIB_DESCRIPTION="CoreOS 647.2.0"
DISTRIB_ID=CoreOS
DISTRIB_RELEASE=647.2.0
DISTRIB_CODENAME="Red Dog"
DISTRIB_DESCRIPTION="CoreOS 647.2.0"

一周后更新:集群还停留在半升级状态。如果有人有任何经验,我很想知道如何调试此类问题。

最佳答案

如评论中所述,在这种情况下,可能是某台机器收到了更新,在查看失败次数后,CoreOS OS 团队决定停止向更多主机推出更新,以避免造成更多的失败。

如果你想强制更新检查,你可以运行:

$ update_engine_client -check_for_update
[0123/220706:INFO:update_engine_client.cc(245)] Initiating update check and install.

有关详细信息,请参阅 https://coreos.com/os/docs/latest/update-strategies.html

关于amazon-web-services - CoreOS 部分集群更新,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/30784178/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com