gpt4 book ai didi

java - AppEngine 突然出现 503 错误

转载 作者:行者123 更新时间:2023-11-30 03:35:23 32 4
gpt4 key购买 nike

当应用程序停止服务请求直到重新部署之前,我们遇到了一些奇怪的 AppEngine 行为。这看起来像图表上的平坦区域:CPU Utilization发生这种情况时,应用程序仍会提供静态内容,但所有 servlet 和 Google Cloud Endpoints 将返回 503 错误。

最近我从 StackDriver 添加了端点监控,它正在检查非常简单的 servlet:

public class HealthCheckServlet extends HttpServlet {

@Override
public void doGet(HttpServletRequest req, HttpServletResponse resp) throws IOException {
PrintWriter writer = resp.getWriter();
writer.print("ok");
}
}

结果让我更加困惑:

...
2015-01-19 18:05:04 UTC - failed
2015-01-19 18:10:02 UTC - resolved - gave an error for 4 minutes
2015-01-19 18:45:04 UTC - failed - worked for 35 minutes
2015-01-19 18:49:03 UTC - resolved - gave an error for 3 minutes
2015-01-19 18:51:03 UTC - failed - worked for 2 minutes
2015-01-19 19:24:03 UTC - resolved - gave an error for 33 minutes
2015-01-19 19:31:07 UTC - failed - worked for 7 minutes
2015-01-19 19:48:02 UTC - resolved - gave an error for 16 minutes
2015-01-19 20:19:04 UTC - failed - worked for 31 minutes
2015-01-20 03:25:03 UTC - resolved - gave an error for 425 minutes
2015-01-20 03:46:05 UTC - failed - worked for 21 minutes
2015-01-20 06:50:04 UTC - resolved - gave an error for 183 minutes
2015-01-20 07:21:04 UTC - failed - worked for 31 minutes
2015-01-20 07:26:02 UTC - resolved - gave an error for 4 minutes
2015-01-20 09:21:02 UTC - failed - worked for 115 minutes
2015-01-20 09:26:02 UTC - resolved - gave an error for 5 minutes
2015-01-20 14:25:02 UTC - failed - worked for 301 minutes
2015-01-20 14:31:02 UTC - resolved - gave an error for 6 minutes
2015-01-20 15:09:02 UTC - failed - worked for 28 minutes
2015-01-20 15:14:05 UTC - resolved - gave an error for 5 minutes

看起来它有 50% 的时间工作,50% 的时间失败甚至更多!

不知道这是否重要,但我们的应用程序使用具有标准 java7 运行时的托管 VM,并且严重依赖 Cron 和 TaskQueue。

更新:

一些 OOM 调查。

我将其中一个卡住的虚拟机切换为由用户管理,并检查了/var/log 中的所有日志是否存在 OOM - 没有发现任何结果。然后我检查是否有任何 java 进程正在运行 - 没有 java 进程正在运行。这看起来很奇怪,因为如果没有 java 进程来响应运行状况检查,则应该重新启动它,但这个特定的 VM 是在 5 小时前启动的。

然后我将此虚拟机切换回由 Google 管理,GAE 重新启动它,然后我将其切换回由用户管理并检查 java 进程 - 这次有一个占用了 77% 的内存并且还在增加。平均负载开始增加,直至达到峰值 90,然后虚拟机重新启动。

现在很明显我遇到了内存问题,但我没有在日志中找到任何与内存相关的内容。既不在 GAE 控制台中,也不在服务器上。

我当前的假设是自动缩放过程在一段时间后失败。也许有太多与 OOM 相关的 VM 重新启动或 VM 出现一些意外行为。否则如何解释没有java进程的VM几个小时没有重新启动?

为了验证这个假设,我需要找到一些自动缩放日志,但我仍然找不到。

此外,如果能看到托管虚拟机的内存使用情况就太好了,但看起来无论是从 GAE 控制台还是从 StackDriver 都无法获得它。或者我找不到它。

最佳答案

是的,目前托管虚拟机还处于测试阶段,尽管有时它们感觉更像是阿尔法阶段。顺便说一句,我们也遇到了类似的情况。

我们似乎遇到了内存耗尽(并出现 OOM)的问题,这使得 JVM 完全没有响应 - 运行状况检查也不可用。结果是 GAE 重新启动实例 - 这大约需要 4-5 分钟。

由于您的实例服务大量 cron 和任务队列请求,我的假设是它运行长时间运行的任务,这可能会消耗大量内存。

提示:启用健康检查并使其实际执行一些有意义的工作 - 实例化一些类,检查一些内部状态等。同时设置 healthcheck settings到一些合理的值,以便服务器错误在大约一分钟内得到处理。例如 - 文档中列出的默认设置将在大约 10 分钟(5 秒 + 4 秒)* 60 = 9 分钟 + 重新启动时间(2-3 分钟)内开始重新启动无响应的实例。

关于java - AppEngine 突然出现 503 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28049783/

32 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com