python - nvidia-docker : failed call to cuInit: CUDA_ERROR

python - nvidia-docker : failed call to cuInit: CUDA_ERROR_UNKNOWN 中的 TensorFlow

转载作者：太空狗更新时间：2023-10-30 01:36:54

26

4

我一直致力于让依赖于 TensorFlow 的应用程序作为带有 nvidia-docker 的 docker 容器工作。我已经在 tensorflow/tensorflow:latest-gpu-py3 图像之上编译了我的应用程序。我使用以下命令运行我的 docker 容器:

sudo nvidia-docker run -d -p 9090:9090 -v/src/weights:/weights myname/myrepo:mylabel

通过 portainer 查看日志时，我看到以下内容:

2017-05-16 03:41:47.715682: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.1 instructions, but these are available on your machine and could speed up CPU computations.
2017-05-16 03:41:47.715896: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use SSE4.2 instructions, but these are available on your machine and could speed up CPU computations.
2017-05-16 03:41:47.715948: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX instructions, but these are available on your machine and could speed up CPU computations.
2017-05-16 03:41:47.715978: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use AVX2 instructions, but these are available on your machine and could speed up CPU computations.
2017-05-16 03:41:47.716002: W tensorflow/core/platform/cpu_feature_guard.cc:45] The TensorFlow library wasn't compiled to use FMA instructions, but these are available on your machine and could speed up CPU computations.
2017-05-16 03:41:47.718076: E tensorflow/stream_executor/cuda/cuda_driver.cc:405] failed call to cuInit: CUDA_ERROR_UNKNOWN
2017-05-16 03:41:47.718177: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:158] retrieving CUDA diagnostic information for host: 1e22bdaf82f1
2017-05-16 03:41:47.718216: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:165] hostname: 1e22bdaf82f1
2017-05-16 03:41:47.718298: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:189] libcuda reported version is: 367.57.0
2017-05-16 03:41:47.718398: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:369] driver version file contents: """NVRM version: NVIDIA UNIX x86_64 Kernel Module  367.57  Mon Oct  3 20:37:01 PDT 2016
GCC version:  gcc version 4.8.4 (Ubuntu 4.8.4-2ubuntu1~14.04.3) 
"""
2017-05-16 03:41:47.718455: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:193] kernel reported version is: 367.57.0
2017-05-16 03:41:47.718484: I tensorflow/stream_executor/cuda/cuda_diagnostics.cc:300] kernel version seems to match DSO: 367.57.0

容器似乎确实启动正常，我的应用程序似乎正在运行。当我向它发送预测请求时，预测会正确返回 - 但是在 CPU 上运行推理时我希望速度很慢，所以我认为很明显 GPU 出于某种原因没有被使用。我还尝试从同一容器中运行 nvidia-smi 以确保它能看到我的 GPU，这些是结果:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.57                 Driver Version: 367.57                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GRID K1             Off  | 0000:00:07.0     Off |                  N/A |
| N/A   28C    P8     7W /  31W |     25MiB /  4036MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
+-----------------------------------------------------------------------------+

我当然不是这方面的专家 - 但看起来确实可以从容器内部看到 GPU。关于如何使用 TensorFlow 进行此操作的任何想法？

最佳答案

我在 ubuntu16.04 桌面上运行 tensorflow。

几天前，我使用 GPU 运行代码时运行良好。 但是今天我找不到带有以下代码的gpu设备

将 tensorflow 导入为 tf 从 tensorflow.python.client 将 device_lib 导入为 _device_lib 以 tf.Session() 作为 sess: local_device_protos = _device_lib.list_local_devices() 打印(local_device_protos) [打印(x.name) for x in local_device_protos]

当我运行 tf.Session()

时，我意识到以下问题

cuda_driver.cc:406] failed call to cuInit: CUDA_ERROR_UNKNOWN

我在系统详细信息中检查我的 Nvidia 驱动程序，并使用 nvcc -V、nvida-smi 检查驱动程序、cuda 和 cudnn。一切似乎都很好。

然后我去Additional Drivers查看驱动的详细信息，在那里我发现有很多版本的NVIDIA驱动并且选择了最新的版本。但是当我第一次安装驱动程序时，只有一个。

所以我选择了一个旧版本，并应用了更改。

然后我运行 tf.Session() 问题也在这里。我想我应该重新启动我的计算机，在我重新启动它之后，这个问题就消失了。

sess = tf.Session() 2018-07-01 12:02:41.336648: I tensorflow/core/platform/cpu_feature_guard.cc:140] 您的 CPU 支持此 TensorFlow 二进制文件未编译使用的指令:AVX2 FMA 2018-07-01 12:02:41.464166: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:898] 从 SysFS 读取成功的 NUMA 节点有负值(-1)，但必须至少有一个 NUMA 节点，所以返回NUMA 节点零 2018-07-01 12:02:41.464482: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1356] 找到具有属性的设备 0: 名称:GeForce GTX 1070 主要:6 次要:1 内存时钟频率(GHz):1.8225 pciBusID:0000:01:00.0 总内存:7.93GiB 空闲内存:7.27GiB 2018-07-01 12:02:41.464494: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1435] 添加可见的 gpu 设备:0 2018-07-01 12:02:42.308689: I tensorflow/core/common_runtime/gpu/gpu_device.cc:923] Device interconnect StreamExecutor with strength 1 edge matrix: 2018-07-01 12:02:42.308721: 我 tensorflow/core/common_runtime/gpu/gpu_device.cc:929] 0 2018-07-01 12:02:42.308729: I tensorflow/core/common_runtime/gpu/gpu_device.cc:942] 0: N 2018-07-01 12:02:42.309686: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1053] Created TensorFlow device (/job:localhost/replica:0/task:0/device:GPU:0 with 7022 MB 内存)-> 物理 GPU(设备:0，名称:GeForce GTX 1070，pci 总线 ID:0000:01:00.0，计算能力:

关于python - nvidia-docker : failed call to cuInit: CUDA_ERROR_UNKNOWN 中的 TensorFlow，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43992230/

26

4

0

文章推荐： database - ACID 和数据库事务如何工作？

文章推荐： database - 数据库和数据仓库有什么区别？

文章推荐： sql - 如何对多列进行 INNER JOIN

文章推荐： python - Python 导入 LightGBM 时出错

tensorflow - NVIDIA-SMI 失败，因为它无法与 NVIDIA 驱动程序通信。确保安装并运行了最新的 NVIDIA 驱动程序。为什么？
我正在尝试在 Google Colab 上运行 stylegan2，但在我的 Drive 上运行所有文件，并避免使用 !git clone 从 github of stylegan2 。这是我在特定
tensorflow - 如何卸载 NVIDIA 内核模块 'nvidia' 以安装新驱动程序？
我需要升级我的 nvidia 驱动程序，以便尝试运行 NVIDIA-LInux-x86_64.run文件但是，我看到以下消息 ERROR: An NVIDIA kernel module 'nvid
nvidia - Cuda 内核代码驻留在 nvidia GPU 上的什么位置？
我经历过Cuda programming guide但仍然不清楚 cuda 内核在 GPU 上的什么位置？换句话说，它驻留在哪个内存段？另外，我怎么知道我的设备支持的最大内核大小是多少？最大内核大小
docker - nvidia/cuda 镜像中的 NVidia 驱动程序库
我想在基于官方nvidia/cuda的容器中运行带有cuvid硬件加速解码的ffmpeg图片。 Ffmpeg 无法找到 libnvcuvid.so，尽管有所有必需的 cuda 库。ldconfig -
ubuntu - nvidia-smi 和 nvidia x 服务器设置之间的顺序不同
当我运行命令 nvidia-smi ，我得到以下两个按总线 ID 排序的 GPU: For GPU 0, 00000000:0A:00.0 For GPU 1, 00000000:41:00.0 但是
gpu - NVIDIA-SMI 失败，因为无法与 NVIDIA 驱动程序通信
我正在使用 Ubuntu 14.04 LTS 运行 AWS EC2 g2.2xlarge 实例。我想在训练 TensorFlow 模型时观察 GPU 利用率。我在尝试运行“nvidia-smi”时遇到
docker - Nvidia-docker : Unknown runtime specified nvidia
我尝试在安装 docker-ce 后安装 nvidia-docker。我关注的是:https://github.com/NVIDIA/nvidia-docker安装 nvidia-docker。看来已
cuda - Nvidia Hyper Q 和 Nvidia Streams 有什么区别？
我一直认为 Hyper-Q 技术不过是 GPU 中的流。后来我发现我错了(是吗？)。所以我读了一些关于 Hyper-Q 的书，却更加困惑了。我正在浏览一篇文章，它有以下两个陈述: A. Hyper-
cuda - 如何用 NVIDIA GPU 解释这个关于 `nvidia-smi` 的数字？
我刚刚在安装了两个 K20m GPU 的服务器中运行了 simpleMultiGPU。然后运行 nvidia-smi 命令来显示 GPU 的状态。结果如下: 问题如下: GPU 内存使用情况似乎不
linux - 错误 : NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver
NVIDIA-SMI 抛出此错误: NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make
nvidia - 如何通过 Vulkan 使用 Nvidia 的 Tensor Core
如何使用 Vulkan 来利用 Nvidia 的张量核心(在计算着色器中？!)？ Nvidia 有这篇文章 Programming Tensor Cores in CUDA 9 ，但这显然是针对 CU
nvidia - 使用 Chapel 使用两个 Nvidia Jetson nano 开发工具包时遇到问题
我在类的一个项目中使用 Chapel，我正在尝试使用我的两个 Nvidia Jetson nano 板进行多语言环境执行。按照本教程 https://chapel-lang.org/docs/usin
tensorflow - 内存使用指标 `nvidia-smi dmon` 与 `nvidia-smi` 之间有何差异
我得到nvidia-smi得到Memory-Usage是这样的 $nvidia-smi -i 0,1 Wed Mar 4 16:20:07 2020 +-----------------
tensorflow - 内存使用指标 `nvidia-smi dmon` 与 `nvidia-smi` 之间有何差异
我得到nvidia-smi得到Memory-Usage是这样的 $nvidia-smi -i 0,1 Wed Mar 4 16:20:07 2020 +-----------------
docker - nvidia-docker run 与 docker run --runtime=nvidia
有没有区别: nvidia-docker 运行和 docker run --runtime=nvidia ? 在 official docs他们使用后者，但我在其他在线教程中看到过前者。最佳答案
c - 我需要为 OpenCL 安装 Nvidia 的 SDK(CUDA) 来检测 Nvidia GPU 吗？
我有一个用 C 编写的代码(使用 opencl 规范)来列出所有可用的设备。我的 PC 安装了 AMD FirePro 和 Nvidia 的 Tesla 显卡。我先安装了AMD-APP-SDK-v3.
nvidia - cuda内核调用是同步的还是异步的
我读到可以使用内核启动来同步不同的 block ，即，如果我希望所有 block 在进行操作 2 之前完成操作 1，我应该将操作 1 放在一个内核中，将操作 2 放在另一个内核中。这样，我可以实现 b
nvidia - nvapi在d3d10中使用NvAPI_Stereo_SetDriverMode
我目前正在尝试使用函数 NvAPI_Stereo_SetDriverMode 将 nvapi 设置为在直接模式下工作。根据 Nvidia nvapi site (在手册中)，如果你想做一个 dire
cuda - NVIDIA GPU的任务调度
我对nvidia GPU的任务调度有些疑惑。 (1)如果一个 block (CTA)中的线程束已经完成，但仍有其他线程在运行，这个线程会等待其他线程完成吗？换句话说，当所有线程都完成时， block
tensorflow - Nvidia TX1上的TensorFlow
有人在Nvidia Tegra X1上使用了tensorflow吗？我发现一些资料表明TK1上可能存在这种情况，或者TX1上存在严重的黑客入侵/错误，但尚无确定的配方。 http://cudamus

首页

博学

6Ren·AI

商城

python - nvidia-docker : failed call to cuInit: CUDA_ERROR_UNKNOWN 中的 TensorFlow