cuda - 禁用 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持-6ren

cuda - 禁用 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持

转载作者：行者123 更新时间：2023-12-02 00:25:33

27

4

我有一个运行 Ubuntu 12.04 服务器的 headless 工作站，最近安装了新的 Tesla C2070 卡，但在运行 CUDA SDK 中的示例时，出现以下错误:

NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction 
[reduction] starting...

Using Device 0: Tesla C2070

Reducing array of type int

16777216 elements
256 threads (max)
64 blocks

reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.

实际上，除了“deviceQuery”之外的所有其他示例都会发生此错误。

我使用的是内核 3.2.0、nvidia 驱动程序 295.41 和 Cuda 4.2.9。

经过大量搜索后，找到了禁用 ecc 支持的建议:

   nvidia-smi -g 0 --ecc-config=0

这有效。但问题是 GPU 计算的可靠性如何禁用 ecc 支持？

任何意见、建议或解决方案都将受到高度赞赏。

-康斯坦丁

最佳答案

我想知道这是否可能是某种兼容性问题，而不是卡坏了。我在使用 Tesla C2075、相同的 Ubuntu 版本时遇到了同样的问题。我们联系了 nVidia，他们告诉我们双位 ECC 错误(如在 Linux 中使用 nvidia-smi -q 所见)意味着该卡可能已损坏。我们获得了替代品，但它有完全相同的问题。

我拥有的两 block 板似乎不太可能以相同的方式损坏，因此如果我们能找到合适的机器，我们将在另一台机器上尝试。

我会发布我们学到的任何有趣的东西。

关于cuda - 禁用 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12295768/

27

4

0

文章推荐： java - 使用 a-z 输入进行循环

文章推荐： java - 如何解析包含区域设置的日期字符串

文章推荐： java - HornetQ:哪些版本可以算稳定？

cuda - 英伟达 CUDA : Difference between Tesla T10 processors and Tesla M2090 processor
我有一个执行有限差分计算的 CUDA 代码。该代码在 Tesla M2090 处理器上运行良好，没有错误。相同的代码会在 Tesla T10 处理器中导致大量错误。我的结果中有很多零。有谁知道这两种
cuda - 英伟达 CUDA : Difference between Tesla T10 processors and Tesla M2090 processor
我有一个执行有限差分计算的 CUDA 代码。该代码在 Tesla M2090 处理器上运行良好，没有错误。相同的代码会在 Tesla T10 处理器中导致大量错误。我的结果中有很多零。有谁知道这两种
opencl - nVidia Tesla 卡有什么好处吗？
我打算购买一个真正的 GPU 来运行并行算法(预算 2k-4k)。现在我到处都能看到配备了“专为 GPGPU 设计”的 nVidia Tesla GPU 卡的 super 计算机。虽然这乍一看似乎很
multithreading - nvidia Tesla 上的线程总数
可以在 nvidia Tesla 上并发运行的线程总数是多少，比如 S1070。最佳答案结合来自 NVIDIA's product page 的信息与 this site和一个 interesti
mysql - 用于网络服务器的基于 Tesla 的服务器？
我只是想知道我是否可以像普通服务器一样使用基于 tesla 的服务器(需要明确说明是 Tesla GPU)作为网络服务器，例如通过安装 apache 和 mysql？如果可能的话，我想知道它是否会有
cuda - Nvidia Tesla vs 480用于CUDA编程
Closed. This question is off-topic。它当前不接受答案。想要改善这个问题吗？ Update the question，所以它是用于堆栈溢出的on-topic。 9年前
pyephem - 如何追踪位于 Pyephem 的 Tesla Roadster？
如您所知，SpaceX 将特斯拉跑车发射到太空，目前它正在绕太阳运行。 https://en.wikipedia.org/wiki/Elon_Musk%27s_Tesla_Roadster 我如何在
CUDA:Fermi (Tesla M2090) 无故生成 CUDA_EXCEPTION_10
我有一小段代码可以在 Nvidia 旧架构(Tesla T10 处理器)上完美运行，但不能在 Fermi(Tesla M2090)上运行我了解到费米的行为略有不同。因此，不安全的代码可能会在旧架构上
cuda - NVIDIA Tesla 和 CUDA 究竟是什么？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
javascript - 页脚使用https://www.tesla.com/charging使用什么方法？
Closed. This question needs to be more focused。它当前不接受答案。
c - 与 Geforce 相比，Tesla 的内核开销要少多少？
采用 TCC 模式的 Tesla(Fermi 或 Kepler)与采用 WDDM 的 Geforce(同代)相比？我编写的程序在内核开销方面存在一些非常严重的问题，因为它必须重复启动内核，开销如此之
cuda - Tesla k20m 与 Direct3D 11 的互操作性
我想知道我是否可以使用 Nvidia Tesla K20 和 Direct3D 11？我想使用 Direct3D 渲染图像，然后使用 CUDA 处理渲染图像，[我知道如何计算 CUDA 互操作性]。
tensorflow - Tesla V100 上的 TF1.4 未启用混合精度
我有兴趣测试我的神经网络(一个用作生成器的自动编码器 + 一个用作鉴别器的 CNN)，它使用 3dconv/deconv 层和新的 Volta 架构，并从混合精度训练中受益。我用 CUDA 9 和 C
azure - OpenCL 程序无法在 Tesla M60 GPU 上运行
我有一个使用 OpenCL 的项目，该项目正在我的 MAC 上运行，具有以下规范: MacBook Air (13-inch, Mid 2013) 1.3 GHz Intel Core i5 Inte
c - 在 Tesla K80 集群中使用点对点获取 nan 结果
我在我的算法中应用了 UVA 和 OpenMP 以使其更强大。问题是，当我启动一个并行内核时，例如，3 个 CPU 线程同时启动一个内核。一个线程具有 nan 值。 GPU X 似乎无法从 GPU0
c - Nvidia Tesla : No platforms found 上的 OpenCL
我可以访问运行 Debian 7 并安装了两 block Nvidia Tesla 卡的系统。我想使用 OpenCL 进行一些基准测试。然而，OpenCL 无法找到任何兼容平台。我是否需要任何额外的库
gpu - NVIDIA Quadro 6000 和 Tesla C2075 显卡有什么区别？
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 9年前关闭。 Improve this q
api - 从 Tesla Motors API 获取 client_id/client_secret
我正在制作一个应用程序来跟踪诸如行驶里程、使用的千瓦时等信息。但是我很难弄清楚如何获取 client_id 和 client_secret，因为 API 是非官方的。这是包含 API 详细信息的 A
CUDA 程序在 Tesla K20 上运行速度比 GTX 965 慢
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 8 年前。 Improve this ques
windows - 如何在配备 Tesla 的基于 Windows 的主机上使用 OpenGL 进行渲染
之前我一直认为Tesla不会支持OpenGL API，但是最近了解到Tesla产品也可以通过OpenGL进行可视化。我有一个工作站，其中有 2 个 Intel E5 CPU 和 1 个 Tesla

首页

博学

6Ren·AI

商城

cuda - 禁用 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持