gpt4 book ai didi

amazon-web-services - 如何快速调试 SageMaker 训练脚本?

转载 作者:行者123 更新时间:2023-11-30 08:51:56 27 4
gpt4 key购买 nike

在 Amazon SageMaker 中运行 ML 训练作业时,训练脚本会被“部署”并提供一个 ML 训练实例,该实例需要大约 10 分钟才能启动并获取所需的数据。

我只能从训练作业中收到一条错误消息,然后它就会终止,实例也会随之被终止。

在对训练脚本进行更改以修复该问题后,我需要部署并运行它,这还需要 10 分钟左右。

如何更快地完成此任务,或保持训练实例运行?

最佳答案

您似乎正在使用 SageMaker 框架之一运行训练作业。鉴于此,您可以使用 SageMaker 的“本地模式”功能,它将在笔记本实例中本地运行您的训练作业(特别是容器)。这样,您就可以迭代脚本直到它起作用。然后,如果需要,您可以继续访问远程训练集群,根据整个数据集训练模型。要使用本地模式,只需将实例类型设置为“本地”即可。有关本地模式的更多详细信息可以在 https://github.com/aws/sagemaker-python-sdk#sagemaker-python-sdk-overview 找到。和博客文章:https://aws.amazon.com/blogs/machine-learning/use-the-amazon-sagemaker-local-mode-to-train-on-your-notebook-instance/

关于amazon-web-services - 如何快速调试 SageMaker 训练脚本?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/54334462/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com