autoscaling - AWS Sagemaker 推理端点无法通过自动缩放进行缩放-6ren

autoscaling - AWS Sagemaker 推理端点无法通过自动缩放进行缩放

转载作者：行者123 更新时间：2023-12-02 02:29:11

26

4

我有一个 AWS Sagemaker 推理端点，该端点启用了 SageMakerVariantInvocationsPerInstance 目标指标的自动缩放。当我向端点发送大量请求时，实例数正确地扩展到最大实例数。但是在我停止发送请求后，实例数不会缩减为 1，即最小实例数。我等了好几个小时。这种行为有原因吗？

谢谢

最佳答案

AutoScaling 需要触发 cloudwatch 警报才能缩减。Sagemaker 在没有事件时不会推送 0 值指标(它只是不推送任何内容)。这会导致警报被放入数据不足，并且不会在您的工作负载突然结束时触发自动缩放规模。

解决方法是:

使用 cloudwatch 指标数学 FILL() 函数为您的规模制定步进扩展策略。这样您就可以告诉 CloudWatch“如果没有数据，在评估警报时假装这是指标值。这只有通过步长缩放，因为目标跟踪会为您创建警报(并且 AutoScaling 会定期重新创建它们，因此如果您进行手动更改，它们将被删除)
安排了缩放，每天晚上将大小重新设置为 1
确保流量在一段时间内持续处于低水平

关于autoscaling - AWS Sagemaker 推理端点无法通过自动缩放进行缩放，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/65322286/

26

4

0

文章推荐： javascript - 如何在 rxjs 中冒泡滚动事件

文章推荐： c - if 语句选择了错误的条件

文章推荐： php - 将 WooCommerce 产品标题限制为特定长度(并添加 '...' )

nlp - 关于 lda 推理
现在，我正在使用 MALLET 包中的 LDA 主题建模工具对我的文档进行一些主题检测。最初一切都很好，我从中得到了 20 个主题。但是，当我尝试使用该模型推断新文档时，结果有点莫名其妙。例如，我故
Scala 类型(推理)问题？
我正在使用 Jersey 在 Scala 中开发 REST web 服务JAX-RS 引用实现，我收到一个奇怪的错误。我正在尝试创建一个 ContentDisposition对象使用 Content
performance - 推理 Haskell 的性能
以下两个用于计算斐波那契数列第 n 项的 Haskell 程序具有截然不同的性能特征: fib1 n = case n of 0 -> 1 1 -> 1 x -> (fib
scala - Scala 中的参数省略/推理
所以在来自 another question 的评论中，我刚刚看到了这个计算字符串中 L 数量的例子: "hello".count('l'==) 而且够疯狂……它有效。从完全扩展的版本开始，我们有:
android - 无法运行 TensorFlow 推理
我在 android 上运行训练有素的 yolov2 网络时遇到问题。我正在使用这个项目进行测试 https://github.com/szaza/android-yolo-v2 . 提供的网络工作正
ios - 将多维数组转换为数据对象以进行 TF 推理
我目前在我的 iOS 应用程序中使用 Tensorflow 的 Swift 版本。我的模型工作正常，但我无法将数据复制到第一个张量中，因此我可以使用神经网络来检测东西。我咨询了the testsui
python - 视频输入上的 TFLite 推理
我有一个 SSD tflite 检测模型，正在台式计算机上使用 Python 运行。就目前而言，我的下面的脚本将单个图像作为推理的输入，并且运行良好: # Load TFLite model
android - 在移动设备上运行递归神经网络(推理)的最快方法
我所拥有的:在 Tensorflow 中经过训练的递归神经网络。我想要的:一个可以尽可能快地运行这个网络的移动应用程序(只有推理模式，没有训练)。我相信有多种方法可以实现我的目标，但我希望您能提供
c++ - 将可变类模板的子类传递给只接受基类的函数(通过参数包推导/推理)
**我得到了一些让我的函数成为纯通用函数的建议，这可行，但我更愿意将函数限制为仅接受 Base 及其子项。在创建可以接受可变模板类基类型参数的函数时遇到问题，而该函数实际上将使用从 Base 派生的
python - 如何使用 Tensorflow 进行分布式预测/推理
我想使用 TF 2.0 在我的 GPU 集群上运行分布式预测。我使用 MirroredStrategy 训练了一个用 Keras 制作的 CNN 并保存了它。我可以加载模型并在其上使用 .predic
Python 与 C++ Tensorflow 推理
实现一个 C++ 代码来加载一个已经训练好的模型然后获取它而不是使用 Python 真的值得吗？我想知道这一点，因为据我所知，用于 python 的 Tensorflow 是幕后的 C++(对于 n
heroku - 有什么方法可以优化 cpu 中的 pytorch 推理？
我将在网站上提供 pytorch 模型(resnet18)。然而，在 cpu(amd3600) 中进行推理需要 70% 的 cpu 资源。我不认为服务器(heroku)可以处理这个计算。有什么方
python - 多处理时 Pytorch 推理 CUDA 内存不足
为了充分利用 CPU/GPU，我运行了多个对不同数据集进行 DNN 推理(前馈)的进程。由于进程在前馈期间分配了 CUDA 内存，因此我收到了 CUDA 内存不足错误。为了缓解这种情况，我添加了 to
tensorflow - 如何在 GPU 上并行运行多个模型的 tensorflow 推理？
你知道用 1 个 GPU tensorflow 对 2 个 python 进程进行推理的优雅方法吗？假设我有 2 个进程，第一个是分类猫/狗，第二个是分类鸟/飞机，每个进程运行不同的 tensorf
Scala 推理 : fail on 1 evaluation, 成功并具有中间值
我是 Scala 的初学者，不明白这里发生了什么: 给定: val reverse:Option[MyObject] = ... 并且myObject.isNaire返回 bool 值。如果我这样做
haskell - Hindley-Milner 中的 `Let` 推理
我正在尝试通过用我常用的语言 Clojure 实现算法 W 来自学 Hindley-Milner 类型推理。我遇到了 let 推理的问题，我不确定我是否做错了什么，或者我期望的结果是否需要算法之外的东
haskell - Hindley-Milner 中的 `Let` 推理
我正在尝试通过用我常用的语言 Clojure 实现算法 W 来自学 Hindley-Milner 类型推理。我遇到了 let 推理的问题，我不确定我是否做错了什么，或者我期望的结果是否需要算法之外的东
opencv - 如何在运行 Tensorflow 推理 session 之前批处理多个视频帧
我做了一个项目，基本上使用带有 tensorflow 的 googles object detection api。我所做的只是使用预训练模型进行推理:这意味着实时对象检测，其中输入是网络摄像头的视
java - Tensorflow Java 多 GPU 推理
我有一台带有多个 GPU 的服务器，我想在 Java 应用程序内的模型推理期间充分利用它们。默认情况下，tensorflow 占用所有可用的 GPU，但仅使用第一个。我可以想到三个选项来解决这个问题
OpenCV4.5.x DNN + YOLOv5 C++推理
这个预测时间190ms，应该是cpu版本昨天修改了个OpenCV DNN支持部署YOLOv5，6.1版本的Python代码，今天重新转换为C 代码了！貌似帧率比之前涨了点！说明C的确是比Python

首页

博学

6Ren·AI

商城

autoscaling - AWS Sagemaker 推理端点无法通过自动缩放进行缩放