gpt4 book ai didi

docker - 如何使用 nvidia-docker 在 docker swarm 中创建服务

转载 作者:行者123 更新时间:2023-12-02 19:34:46 26 4
gpt4 key购买 nike

如何使用nvidia-docker在docker运行的swarm模式下创建服务。我正在尝试在这个群网络中训练一个 tensorflow 模型来进行分布式学习。我发现一种方法可能是在不同的机器上运行不同容器的集群网络,并在每台机器上使用 GPU 来处理 distributed training。 .如果在 swarm 模式下是不可能的,有什么方法可以完成上述任务吗?

docker service create --name tensorflow --network overnet saikishor/tfm:test azt0tczwkxaqpkh9yaea4laq1

Since --detach=false was not specified, tasks will be created in the background.

In a future release, --detach=false will become the default

但是在 docker service ls 下,我有这个

ID NAME MODE REPLICAS IMAGE PORTS

uf6jgp3tm6dp tensorflow replicated 0/1 saikishor/tfm:test

最佳答案

提问的时候不可能,现在不行

nvidia-docker2发布后,支持一个新的 docker 容器运行时,通常命名为 nvidia。这使 docker run --runtime nvidia ... 可以像 nvidia-docker run ... 一样访问 GPU。此外,配置dockerd选项--default-runtime nvidia后,docker-compose、Docker Swarm、Kubernetes等工具也可以使用GPU .

nvidia-gpu-docker

安装

基于 Debian 的发行版

curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | \
sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | \
sudo tee /etc/apt/sources.list.d/nvidia-docker.list
sudo apt-get update

基于 RHEL 的发行版

distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.repo | \
sudo tee /etc/yum.repos.d/nvidia-docker.repo

配置

{
"runtimes": {
"nvidia": {
"path": "nvidia-container-runtime",
"runtimeArgs": []
}
},
"default-runtime": "nvidia",
...
}

关于docker - 如何使用 nvidia-docker 在 docker swarm 中创建服务,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46934161/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com