gpt4 book ai didi

amazon-web-services - GPU 上的 AWS SageMaker

转载 作者:行者123 更新时间:2023-12-04 11:07:46 24 4
gpt4 key购买 nike

我正在尝试在 AWS 上训练神经网络 (Tensorflow)。我有一些 AWS 积分。根据我的理解,AWS SageMaker 是最适合这项工作的。我设法在 SageMaker 上加载了 Jupyter Lab 控制台并试图找到一个 GPU 内核,因为我知道它是训练神经网络的最佳选择。但是,我找不到这样的内核。

任何人都可以在这方面提供帮助。

感谢和最好的问候

迈克尔

最佳答案

您可以通过 2 个不同的组件在 SageMaker 生态系统中的 GPU 上训练模型:

  • 您可以实例化 GPU 驱动的 SageMaker Notebook Instance ,例如 p2.xlarge (NVIDIA K80) 或 p3.2xlarge (英伟达 V100)。这对于交互式开发很方便——你的笔记本下面有 GPU,可以交互式地在 GPU 上运行代码并通过 nvidia-smi 监控 GPU。在终端选项卡中 - 很棒的开发体验。但是,当您直接从 GPU 驱动的机器上进行开发时,有时您可能不会使用 GPU。例如,当您编写代码或浏览某些文档时。一直以来,您都为闲置的 GPU 付费。在这方面,它可能不是您的用例最具成本效益的选择。
  • 另一种选择是使用 SageMaker Training Job在 GPU 实例上运行。这是训练的首选选项,因为训练元数据(数据和模型路径、超参数、集群规范等)保存在 SageMaker 元数据存储中,日志和指标存储在 Cloudwatch 中,并且实例会在训练结束时自动关闭.在小型 CPU 实例上开发并使用 SageMaker Training API 启动训练任务将帮助您充分利用预算,同时帮助您保留所有实验的元数据和工件。你可以看到here a well documented TensorFlow example
  • 关于amazon-web-services - GPU 上的 AWS SageMaker,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/60868257/

    24 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com