gpt4 book ai didi

cuda - 禁用 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持

转载 作者:行者123 更新时间:2023-12-02 00:25:33 27 4
gpt4 key购买 nike

我有一个运行 Ubuntu 12.04 服务器的 headless 工作站,最近安装了新的 Tesla C2070 卡,但在运行 CUDA SDK 中的示例时,出现以下错误:

NVIDIA_GPU_Computing_SDK/C/bin/linux/release% ./reduction 
[reduction] starting...

Using Device 0: Tesla C2070

Reducing array of type int

16777216 elements
256 threads (max)
64 blocks

reduction.cpp(473) : cudaSafeCallNoSync() Runtime API error 39 : uncorrectable ECC error encountered.

实际上,除了“deviceQuery”之外的所有其他示例都会发生此错误。

我使用的是内核 3.2.0、nvidia 驱动程序 295.41 和 Cuda 4.2.9。

经过大量搜索后,找到了禁用 ecc 支持的建议:

   nvidia-smi -g 0 --ecc-config=0

这有效。但问题是 GPU 计算的可靠性如何禁用 ecc 支持?

任何意见、建议或解决方案都将受到高度赞赏。

-康斯坦丁

最佳答案

我想知道这是否可能是某种兼容性问题,而不是卡坏了。我在使用 Tesla C2075、相同的 Ubuntu 版本时遇到了同样的问题。我们联系了 nVidia,他们告诉我们双位 ECC 错误(如在 Linux 中使用 nvidia-smi -q 所见)意味着该卡可能已损坏。我们获得了替代品,但它有完全相同的问题。

我拥有的两 block 板似乎不太可能以相同的方式损坏,因此如果我们能找到合适的机器,我们将在另一台机器上尝试。

我会发布我们学到的任何有趣的东西。

关于cuda - 禁用 Tesla C2070 和 Ubuntu 12.04 的 ECC 支持,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12295768/

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com