gpt4 book ai didi

tensorflow - AWS SageMaker : CapacityError: Unable to provision requested ML compute capacity.

转载 作者:行者123 更新时间:2023-12-05 02:14:22 25 4
gpt4 key购买 nike

我们正在运行两个类型为 (1) ml.p3.8xlarge 和 (2) ml.p3.2xlarge 的 TrainingJob 实例。

每个训练作业都使用 Tensorflow 和 Keras 后端运行自定义算法。

实例 (1) 运行正常,而实例 (2) 在报告的 1 小时训练时间后,在 CloudWatch 中进行任何日志记录(任何文本牵引日志)后,退出并出现此错误:

Failure reason
CapacityError: Unable to provision requested ML compute capacity. Please retry using a different ML instance type.

我不确定这条消息是什么意思。

最佳答案

此消息表示 SageMaker 尝试启动该实例,但 EC2 没有足够的容量来容纳该实例,因此在等待一段时间(在本例中为 1 小时)后,SageMaker 放弃并导致训练作业失败。

有关 ec2 容量问题的更多信息,请访问: troubleshooting-launch-capacity

要解决此问题,您可以按照失败原因中的建议尝试使用不同的实例类型运行作业,或者等待几分钟,然后按照 EC2 的建议再次提交您的请求。

关于tensorflow - AWS SageMaker : CapacityError: Unable to provision requested ML compute capacity.,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/53636589/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com