gpt4 book ai didi

amazon-web-services - 如何查找 EC2 自动扩展组 "health check"失败的原因? (不涉及负载均衡器)

转载 作者:行者123 更新时间:2023-12-02 07:30:39 25 4
gpt4 key购买 nike

我的 AWS 自动扩展组中的 EC2 实例在运行 1-4 小时后全部终止。确切的时间各不相同,但当这种情况发生时,整个团队会在几分钟内崩溃。

每个的缩放历史描述很简单:

At 2016-08-26T05:21:04Z an instance was taken out of service in response to a EC2 health check indicating it has been terminated or stopped.

但我还没有添加任何健康检查。 EC2 状态检查在实例生命周期内全部通过。

如何确定此“运行状况检查”失败的实际含义?

有关 ASG 终止的大多数问题都会回到负载均衡器,但我没有负载均衡器。该集群处理批处理作业,并且最小/最大/期望值由基于系统中其他地方的工作负载积压的软件控制。

ASG 历史记录不指示缩减事件,并且实例也都受到明确的缩减保护。

我尝试将运行状况检查宽限期设置为 20 小时,看看是否至少能让实例保持运行状态,以便我可以检查它,但它们仍然都会终止。

实例正在运行 ECS AMI,并且 ECS 正在容器中运行启动时启动的单个任务。该任务的日志看起来很正常,并且事情似乎运行得很顺利,直到实例消失前几分钟。

该任务是 CPU 密集型任务,但当我让它休眠六个小时时仍然会出现错误。

最佳答案

这里有一些建议:

  • 要了解实例终止的原因,请在 EC2 的实例列表中选择已终止实例,然后在实例设置中选择获取系统日志 (菜单),然后向下滚动到底部以查看任何明显的问题。实例终止后日志会保留一段时间。
  • 在事件服务内的 ECS 集群中,检查“事件”选项卡中是否有任何消息。
  • 目标组部分中,验证运行状况检查目标(注册目标及其<可用区的 状态运行状况

    要使用 AWS 控制台修改目标组的运行状况检查设置,请选择目标组,然后编辑运行状况检查

  • 在 ASG(EC2 的 Auto Scaling 组)中,检查详细信息(终止策略)、事件历史记录(用于终止消息)、实例(用于其运行状况)、计划操作扩展策略 .

  • 检查CloudWatch是否有任何可用日志。
  • 检查 CloudTrail 是否有任何可疑事件。
  • 验证 ECS 代理是否已连接:Why is my Amazon ECS agent listed as disconnected?
  • 另请检查:Health Checks for Your Target GroupsAmazon ECS Troubleshooting .
  • 如需更多建议,请查看:terraform-ecs. Registered container instance is showing 0

关于amazon-web-services - 如何查找 EC2 自动扩展组 "health check"失败的原因? (不涉及负载均衡器),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/39172639/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com