gpt4 book ai didi

azure - 在 ACI 或 AKS 上部署的 AMLS 模型的 1 分钟服务超时

转载 作者:行者123 更新时间:2023-12-02 08:00:04 25 4
gpt4 key购买 nike

我们在机器学习服务上创建了图像评分模型,并使用 ACI 和 AKS 上的 AMLS 门户进行部署。尽管它在较小的图像上运行,但对于较大的图像,它在 ACI 和 AKS 上恰好 1 分钟后就会超时。预计图像评分可能需要几分钟的时间。

想知道是否存在使用 AMLS 部署的限制,或者 ACI 和 AKS 是否会在 60 秒后使部署的 Web 服务超时?任何解决方法都将受到欢迎

ACI 错误:- 发帖http://localhost:5001/score : net/http: 请求已取消(等待 header 时超出了 Client.Timeout)

AKS 错误:- 副本在回复之前关闭连接

最佳答案

如果您在 AKS 中部署服务,那么 @Greg 的解决方案应该足以满足大多数情况。但是,如果您的 scoring_timeout_ms 值将超过 60000 毫秒(即 60 秒),那么我建议还使用以下配置设置进行调整。当您的模型作为部署部署在 Kubernetes 中时,我们定义了一个 LivenessProbe,这样,如果您的模型容器变得无响应,Kubernetes 可以自动重新启动您的容器,以恢复模型的运行状况。

  • period_seconds:每个 LivenessProbe 之间的时间间隔。如果您的模型需要 45 秒来响应评分请求,那么您可以做的一件事就是将每次 LivenessProbe 执行之间的时间间隔从默认的 10 秒增加到可能的 30 秒(或更长)。
  • failure_threshold:LivenessProbe 失败的次数,之后 Kubernetes 会重新启动模型容器。如果您想每 10 秒运行一次 LivenessProbe,并且您的模型需要 45 秒才能响应,那么您可以将 failure_threshold 从默认值 3 增加到 10。这意味着在连续 10 次 LivenessProbe 失败后,Kubernetes 将重新启动您的容器。
  • timeout_seconds:LivenessProbe 放弃之前等待的时间间隔。您可以考虑的另一种选择是将 timeout_seconds 从默认的 2 秒增加到 30 秒。这将导致 LivenessProbe 在容器繁忙时等待长达 30 秒,但在容器不繁忙时,它会提前回复。

没有一个“正确”的配置设置需要修改,但是这些组合肯定有助于防止 502“副本在回复之前关闭连接”错误。

关于azure - 在 ACI 或 AKS 上部署的 AMLS 模型的 1 分钟服务超时,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/58065258/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com