python - Docker 容器上的 Pytorch w/GPU 错误 - 未检测到支持 CUDA 的设备-6ren

python - Docker 容器上的 Pytorch w/GPU 错误 - 未检测到支持 CUDA 的设备

转载作者：行者123 更新时间：2023-12-02 06:20:29

25

4

我正在尝试在 Docker 容器上使用带有 GPU 的 Pytorch。

<强>1。在主机上 -我安装了 nvidia-docker、CUDA 驱动程序等

这是主机的 nvidia-smi 输出:

    Fri Mar 20 04:29:49 2020       
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 440.64.00    Driver Version: 440.64.00    CUDA Version: 10.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla K80           Off  | 00000000:00:04.0 Off |                    0 |
| N/A   33C    P8    28W / 149W |     16MiB / 11441MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0      1860      G   /usr/lib/xorg/Xorg                            15MiB |
+-----------------------------------------------------------------------------+

<强>2。在 Docker 容器上(应用程序的 Dockerfile - 下面的 Docker Compose 文件)-

FROM ubuntu:latest
FROM dsksd/pytorch:0.4
#FROM nvidia/cuda:10.1-base-ubuntu18.04 
#FROM nablascom/cuda-pytorch
#FROM nvidia/cuda:10.0-base

RUN apt-get update -y --fix-missing
RUN apt-get install -y python3-pip python3-dev build-essential
RUN apt-get install -y sudo curl
#RUN sudo apt-get install -y nvidia-container-toolkit
#RUN apt-get install -y curl python3.7 python3-pip python3.7-dev python3.7-distutils build-essential
#RUN apt-get install -y curl
#RUN apt-get install -y sudo
#RUN curl -O http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/cuda-repo-ubuntu1604_10.0.130-1_amd64.deb
#RUN sudo dpkg -i cuda-repo-ubuntu1604_10.0.130-1_amd64.deb
#RUN sudo apt-key adv --fetch-keys http://developer.download.nvidia.com/compute/cuda/repos/ubuntu1604/x86_64/7fa2af80.pub
#RUN sudo apt-get install cuda -y
#----------
# Add the package repositories
#RUN distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
#RUN curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
#RUN curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
#RUN sudo apt-get update && sudo apt-get install -y nvidia-container-toolkit
#RUN sudo systemctl restart docker
ENV NVIDIA_VISIBLE_DEVICES all
ENV NVIDIA_DRIVER_CAPABILITIES compute,utility
ENV LD_LIBRARY_PATH $LD_LIBRARY_PATH:/usr/local/cuda-10.1/compat/
ENV PYTHONPATH $PATH
#----------
ENV LC_ALL=mylocale.utf8
COPY . /app
WORKDIR /app
RUN pip3 install -r requirements.txt
ENTRYPOINT ["python3"]
EXPOSE 5000
CMD ["hook.py"]

当我尝试在 GPU 上运行代码时，我遇到了:

>>> torch.cuda.current_device()
THCudaCheck FAIL file=/pytorch/aten/src/THC/THCGeneral.cpp line=50 error=100 : no CUDA-capable device is detected
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 386, in current_device
    _lazy_init()
  File "/usr/local/lib/python3.6/dist-packages/torch/cuda/__init__.py", line 193, in _lazy_init
    torch._C._cuda_init()
RuntimeError: cuda runtime error (100) : no CUDA-capable device is detected at /pytorch/aten/src/THC/THCGeneral.cpp:50

我使用以下方式调用容器:docker-compose up --build

这是我的 docker-compose.yaml 文件:

version: '3.6'
services:
  rdb:
    image: mysql:5.7
    #restart: always
    environment:
      MYSQL_DATABASE: 'c_rdb'
      MYSQL_USER: 'user'
      MYSQL_PASSWORD: 'password'
      MYSQL_ROOT_PASSWORD: '123123'
    #ports:
    #  - '3306:3306'
    #expose:
    #  - '3306'
    volumes:
      - rdb-data:/var/lib/mysql
      - ./init-db/init.sql:/docker-entrypoint-initdb.d/init.sql
  mongo:
    image: mongo
    #restart: always
    environment:
      MONGO_INITDB_ROOT_USERNAME: root
      MONGO_INITDB_ROOT_PASSWORD: 12312323
      MONGO_INITDB_DATABASE: chronicler_ndb
    volumes:
      - ndb-data:/data/db
      - ./init-db/init.js:/docker-entrypoint-initdb.d/init.js
    ports:
      - '27017-27019:27017-27019'
  mongo-express:
    image: mongo-express
    #restart: always
    depends_on:
        - mongo
        - backend
    ports:
      - 8081:8081
    environment:
      ME_CONFIG_MONGODB_ADMINUSERNAME: rooer
      ME_CONFIG_MONGODB_ADMINPASSWORD: 123123
  redis:
    image: redis:latest
    command: ["redis-server", "--appendonly", "yes"]
    hostname: redis
    #ports:
    #  - "6379:6379"
    volumes:
      - cache-data:/data
  backend:
    build: ./app
    ports:
     - "5000:5000"
    volumes:
     - backend-data:/code
    links: 
     - rdb
     - redis

volumes:
  rdb-data:
    name: c-relational-data
  ndb-data:
    name: c-nosql-data
  cache-data:
    name: redis-data
  backend-data:
    name: backend-engine

最佳答案

它需要运行时选项，但是，运行时选项在撰写文件格式3中不可用。所以有一些选项

将您的撰写文件版本降级为 2，如下所示:

version: 2
  backend:
    build: ./app
    ports:
     - "5000:5000"
    volumes:
     - backend-data:/code
    links: 
     - rdb
     - redis
    runtime: nvidia

或者，使用 docker run 和 --runtime=nvidia 参数手动运行容器

此外，我建议使用 nvidia 构建的镜像，而不是 ubuntu:latest

<小时/>

欲了解更多信息，您可以阅读issue here

关于python - Docker 容器上的 Pytorch w/GPU 错误 - 未检测到支持 CUDA 的设备，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/60768583/

25

4

0

文章推荐： github - 自动将 google 代码重定向到 github

文章推荐： Java iText 删除和更新

文章推荐： java - 仅调用 'super' 实现时进行覆盖是否有意义？

文章推荐： java - SQLite 如果存在现有数据则跳过或覆盖

docker - docker ， docker 没有IPAddress检查
我正在使用以下dockerfile: FROM ubuntu:14.04 MAINTAINER xxx xxx # SSH RUN apt-get update && apt-get install
docker - Docker docker-compose不获取相关的缓存镜像
我运行了docker-compose build celery，(经过数小时的尝试，我的连接不良)成功了。 app Dockerfile的前80％是相同的，但不会重复使用缓存。从我可以浏览的内容来看，
docker - docker 守护进程重新启动后，Docker 注册表中的所有存储库都会被删除 (docker-for-mac)
我可以使用以下命令成功创建 Docker 注册表 v2 服务:docker service create 然后我使用 docker Push 将一些图像推送到该服务。当我通过 curl localh
docker - 无法连接到 docker 的 docker 镜像中的守护进程 docker
我正在尝试使用 gitlab 构建 CI，我从 docker 的 docker 镜像开始，我的前端存储库没有任何问题，但现在使用相同的 gitlab-ci 配置文件，我有此守护程序错误。这是构建的输
docker - 最小化 Docker-in-Docker 容器内的 `docker build` 执行时间
用例: 我们在 Jenkins 中有几个“发布作业”build 和 push 应用程序的 Docker 镜像到 docker registry，更新各种文件中的项目版本，最后将发布标签推送到相应的 G
docker - 我无法使用 Docker 构建我的 docker 文件来创建我的 docker 镜像
当我尝试构建我的 docker 文件时，docker 返回以下错误: [+] Building 0.0s (1/2)
docker - 如何在不使用 docker-in-docker 的情况下在 jenkins 管道中使用 docker
docker-in-docker 的作者在此博客中建议不要将此图像用于 CI 目的: jpetazzo/Using Docker-in-Docker for your CI or testing en
docker - 在 Docker 容器中运行 Docker : Cannot connect to the Docker daemon
我创建了一个 Dockerfile 来在 Docker 中运行 Docker: FROM ubuntu:16.04 RUN apt-get update && \ apt-get in
docker - 如何在 Docker 命令行的 Docker 注册表中找到具有特定标记的 Docker 镜像？
我尝试为 Docker 镜像定位一个特定标签。我怎样才能在命令行上做到这一点？我想避免下载所有图像，然后删除不需要的图像。在 Ubuntu 官方版本中，https://registry.hub.do
docker - docker 内的 docker ，发布HTTP错误
我正在尝试在docker中运行docker。唯一的目的是实验性的，我绝不尝试实现任何功能，我只想检查docker从另一个docker运行时的性能。我通过Mac上的boot2docker启动docke
docker - Docker:docker-compose.yml中用于自动重新部署新镜像的选项
docker-compose.yml version: "3" services: daggr: image: "docker.pvt.com/test/daggr:stable"
docker - 在 Docker 容器内访问 Docker
我有一个非常具体的开发环境用例。在一些代码中，我启动了一个容器来抓取页面并检索在容器中运行的服务(Gitlab)的 token 。现在，我希望 Dockerize 运行它的代码。具体来说，类似: o
docker - docker-compose文件vs docker bundle
之前已经问过这个问题，但我不确定当时是否可以使用docker-compose文件完成docker堆栈部署。由于最新版本支持使用compose将服务部署到堆栈，因此，我无法理解dab文件的值。我检查
docker - docker 池和 docker 注册表有什么区别？
我在一次采访中被问到这个问题，但无法回答。也没有找到任何相关信息。最佳答案正如 Docker 文档中所述，Docker 注册表是: [...] a hosted service containin
docker - docker :如何将 docker 中的所有png文件复制到主机？
有没有一种方法可以将具有给定扩展名的所有文件复制到Docker中的主机？就像是 docker cp container_name:path/to/file/in/docker/*.png path/o
docker - docker 日志级别会影响日志记录驱动程序还是仅影响 docker 守护程序的日志？
我的日志驱动程序设置为journald。使用日志记录驱动程序时，daemon.json文件中的日志级别配置会影响日志吗？使用docker logs 时仅会影响容器日志？例如，docker和journ
docker - docker 服务如何管理从单独的 docker 容器调用实例？
我最近开始使用Docker + Celery。我还共享了full sample codes for this example on github，以下是其中的一些代码段，以帮助解释我的观点。就上下文
docker - docker :无法提交构建的 docker 镜像
运行docker build .命令后，尝试提交构建的镜像，但收到以下错误 Step 12 : CMD activator run ---> Using cache ---> efc82ff1ca
docker - Docker + docker-组成+无法启动服务
我们有docker-compose.yml，其中包含Kafka，zookeeper和schema registry的配置当我们启动docker compose时，出现以下错误 docker-comp
docker - docker 基本图像存储库ouside docker 中心？
我是Docker的新手。是否可以在Docker Hub外部建立Docker基本镜像存储库？假设将它们存储在您的云中，而不是拥有DH帐户？谢谢。最佳答案您可以根据需要托管自己的注册表。可以在Depl

首页

博学

6Ren·AI

商城

python - Docker 容器上的 Pytorch w/GPU 错误 - 未检测到支持 CUDA 的设备