gpt4 book ai didi

amazon-web-services - 多个容器共享单个 GPU

转载 作者:行者123 更新时间:2023-12-03 23:49:34 24 4
gpt4 key购买 nike

我已经配置了在具有单个 GPU 的 g4dn.xlarge 实例上运行的 ECS 服务。在任务定义中,我指定了使用一个 GPU 的容器定义资源要求,如下所示:

"resourceRequirements": [
{
"type":"GPU",
"value": "1"
}
]

在此实例上运行一项任务和一个容器工作正常。当我将服务所需的任务计数设置为 2 时,我会在该服务上收到一个事件,该事件指出:

service was unable to place a task because no container instance met all of its requirements. The closest matching container-instance has insufficient GPU resource available.



根据 AWS docs :

Amazon ECS will schedule to available GPU-enabled container instances and pin physical GPUs to proper containers for optimal performance.



是否有任何方法可以覆盖此默认行为并强制 ECS 允许多个容器实例共享单个 GPU?

我不相信我们会在共享时遇到性能问题,因为我们计划将每个容器用于非 CUDA 的 H264 编码 (nvenc)。如果有人可以指导我查看有关共享 GPU 的容器上 CUDA 性能的文档,那也将不胜感激。

最佳答案

技巧是默认情况下为所有容器启用 nvidia docker 运行时,如果它适合您的使用

基于 Amazon AMI amazon/amzn2-ami-ecs-gpu-hvm-2.0.20200218-x86_64-ebs ,连接到实例并添加以下配置:

sudo cat <<"EOF" > /etc/docker/daemon.json
{
"default-runtime": "nvidia",
"runtimes": {
"nvidia": {
"path": "/etc/docker-runtimes.d/nvidia"
}
}
}
EOF
sudo pkill -SIGHUP dockerd
tail -10 /var/log/messages

创建一个新的 AMI,不要在 GPU 容器定义上指定任何值。

关于amazon-web-services - 多个容器共享单个 GPU,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/59687272/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com