gpu - cublas 的tensorflow运行错误-6ren

gpu - cublas 的tensorflow运行错误

转载作者：行者123 更新时间：2023-12-01 18:20:58

26

4

当我在集群上成功安装tensorflow时，我立即运行mnist demo来检查它是否顺利，但这里我遇到了一个问题。我不知道这是什么意思，但看起来错误来自 CUDA

python3 -m tensorflow.models.image.mnist.convolutional
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcublas.so locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcudnn.so locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcufft.so locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcuda.so locally
I tensorflow/stream_executor/dso_loader.cc:108] successfully opened CUDA library libcurand.so locally
Extracting data/train-images-idx3-ubyte.gz
Extracting data/train-labels-idx1-ubyte.gz
Extracting data/t10k-images-idx3-ubyte.gz
Extracting data/t10k-labels-idx1-ubyte.gz
I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:924] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
I tensorflow/core/common_runtime/gpu/gpu_init.cc:102] Found device 0 with properties: 
name: Tesla K20m
major: 3 minor: 5 memoryClockRate (GHz) 0.7055
pciBusID 0000:03:00.0
Total memory: 5.00GiB
Free memory: 4.92GiB
I tensorflow/core/common_runtime/gpu/gpu_init.cc:126] DMA: 0 
I tensorflow/core/common_runtime/gpu/gpu_init.cc:136] 0:   Y 
I tensorflow/core/common_runtime/gpu/gpu_device.cc:806] Creating TensorFlow device (/gpu:0) -> (device: 0, name: Tesla K20m, pci bus id: 0000:03:00.0)
Initialized!
E tensorflow/stream_executor/cuda/cuda_blas.cc:461] failed to run cuBLAS routine cublasSgemm_v2: CUBLAS_STATUS_EXECUTION_FAILED
Traceback (most recent call last):
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 715, in _do_call
return fn(*args)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 697, in _run_fn
status, run_metadata)
  File "/home/gpuusr/local/lib/python3.5/contextlib.py", line 66, in __exit__
next(self.gen)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/framework/errors.py", line 450, in raise_exception_on_not_ok_status
pywrap_tensorflow.TF_GetCode(status))
tensorflow.python.framework.errors.InternalError: Blas SGEMM launch failed : a.shape=(64, 3136), b.shape=(3136, 512), m=64, n=512, k=3136
 [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Reshape, Variable_4/read)]]
 [[Node: add_5/_35 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_299_add_5", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"]()]]

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/home/gpuusr/local/lib/python3.5/runpy.py", line 170, in _run_module_as_main
"__main__", mod_spec)
  File "/home/gpuusr/local/lib/python3.5/runpy.py", line 85, in _run_code
exec(code, run_globals)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/models/image/mnist/convolutional.py", line 316, in <module>
tf.app.run()
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/platform/app.py", line 30, in run
sys.exit(main(sys.argv))
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/models/image/mnist/convolutional.py", line 294, in main
feed_dict=feed_dict)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 372, in run
run_metadata_ptr)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 636, in _run
feed_dict_string, options, run_metadata)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 708, in _do_run
target_list, options, run_metadata)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/client/session.py", line 728, in _do_call
raise type(e)(node_def, op, message)
tensorflow.python.framework.errors.InternalError: Blas SGEMM launch failed : a.shape=(64, 3136), b.shape=(3136, 512), m=64, n=512, k=3136
 [[Node: MatMul = MatMul[T=DT_FLOAT, transpose_a=false, transpose_b=false, _device="/job:localhost/replica:0/task:0/gpu:0"](Reshape, Variable_4/read)]]
 [[Node: add_5/_35 = _Recv[client_terminated=false, recv_device="/job:localhost/replica:0/task:0/cpu:0", send_device="/job:localhost/replica:0/task:0/gpu:0", send_device_incarnation=1, tensor_name="edge_299_add_5", tensor_type=DT_FLOAT, _device="/job:localhost/replica:0/task:0/cpu:0"]()]]
Caused by op 'MatMul', defined at:
  File "/home/gpuusr/local/lib/python3.5/runpy.py", line 170, in _run_module_as_main
"__main__", mod_spec)
  File "/home/gpuusr/local/lib/python3.5/runpy.py", line 85, in _run_code
exec(code, run_globals)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/models/image/mnist/convolutional.py", line 316, in <module>
tf.app.run()
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/platform/app.py", line 30, in run
sys.exit(main(sys.argv))
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/models/image/mnist/convolutional.py", line 221, in main
logits = model(train_data_node, True)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/models/image/mnist/convolutional.py", line 213, in model
hidden = tf.nn.relu(tf.matmul(reshape, fc1_weights) + fc1_biases)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/ops/math_ops.py", line 1209, in matmul
name=name)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/ops/gen_math_ops.py", line 1178, in _mat_mul
transpose_b=transpose_b, name=name)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/ops/op_def_library.py", line 704, in apply_op
op_def=op_def)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/framework/ops.py", line 2260, in create_op
original_op=self._default_original_op, op_def=op_def)
  File "/home/gpuusr/local/lib/python3.5/site-packages/tensorflow/python/framework/ops.py", line 1230, in __init__
self._traceback = _extract_stack()

Segmentation fault (core dumped)

最佳答案

找到修复方法真是一场噩梦 - 但修复方法有点简单

https://www.tensorflow.org/guide/using_gpu

# add to the top of your code under import tensorflow as tf
config = tf.ConfigProto()
config.gpu_options.allow_growth = True
session = tf.Session(config=config....)

关于gpu - cublas 的tensorflow运行错误，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/38303974/

26

4

0

文章推荐： ios - NSUserDefaults-保存UIImageView位置

文章推荐： nlp - 如何识别光学字符识别 (OCR) 输出的文本中的实体？

文章推荐： kotlin - 为什么 @Transient 不能与 val 字段一起使用？

cublas - cublas 内核函数会自动与主机同步吗？
只是一个关于 cublas 的一般问题。对于单线程，如果没有从 GPU 到 CPU 的内存传输(例如 cublasGetVector)，cublas 内核函数(例如 cublasDgemm)是否会自动
CUBLAS 通用矩阵点积
我已经编写了一个struct 和一些包装“CUBLAS 矩阵对象”的函数 struct 是: #include #include #include #define uint unsigned i
cublas 矩阵乘法不符合预期
我正在尝试用 cublas 替换我的 gpu block 矩阵乘法，但我在 2x2 测试用例中没有得到我期望的结果: #include "cuda_runtime.h" #include "cubla
cuBLAS 同步最佳实践
我在 Stack Overflow 上阅读了两篇文章，即 Will the cublas kernel functions automatically be synchronized with the
cuda - 验证是否安装了 CUBLAS
如何检查是否安装了 cuBLAS。有没有一种简单的方法可以使用命令行来完成它而无需实际运行任何 cuda 代码行最佳答案尝试一下 cat /usr/local/cuda/include/cubla
matrix - CUBLAS - 矩阵元素求幂可能吗？
我正在使用 CUBLAS(Cuda Blas 库)进行矩阵运算。是否可以使用 CUBLAS 来实现矩阵项的求幂/均方根？我的意思是，有 2x2 矩阵 1 4 9 16 我想要的是一个提升到给定值的
c++ - CUBLAS 矩阵乘法与行主数据无转置
我目前正尝试在我的 GPU 上使用 CUBLAS 实现矩阵乘法。它适用于方矩阵和特定大小的输入，但对于其他输入，最后一行不会返回(并且包含 0，因为这是我实现它的方式)。我认为这是 cublasS
异步 cuBLAS 调用
我想异步调用 cuBLAS 例程。是否可以？如果是，我怎样才能实现这一目标？最佳答案在 cublas 调用之前使用 cublasSetStream 函数。 cublasSetStream(cubl
cuda - CUBLAS 同步
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外，少数返回标量结果的函数，例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2()，通过引用
cuda - CUBLAS 中的异步和内存所有权
CUBLAS 是一个异步库。传递给 CUBLAS 的参数对内存所有权有什么要求？很明显，在异步调用完成之前，不应释放由 CUBLAS 操作的矩阵 - 但标量参数呢？例如，下面的代码是声音: //.
gpu - cublas 的tensorflow运行错误
当我在集群上成功安装tensorflow时，我立即运行mnist demo来检查它是否顺利，但这里我遇到了一个问题。我不知道这是什么意思，但看起来错误来自 CUDA python3 -m tensor
cuda - CUBLAS 矩阵乘法
使用 CUDA 实现矩阵乘法后。我尝试用CUBLAS实现它(感谢论坛中一些人的建议)。我可以乘方阵，但是(是的，再次......)我在处理非方阵时遇到困难。唯一有效的非方阵乘法类型是当您改变矩阵 A
cuda - CUBLAS:零主元矩阵的不正确反演
从 CUDA 5.5 开始，CUBLAS 库包含用于批量矩阵分解和求逆的例程(分别为 cublasgetrfBatched 和 cublasgetriBatched )。从文档中获取指南，我编写了一
c++ - cuBlas 的不同结果
我已经实现了以下 CUDA 代码，但我对行为有点困惑。 #include #include #include #include #include "cublas_v2.h" #include
输入矩阵也可以用于存储 CUBLAS 的输出矩阵吗？
例如， cublasgeam() 会做: 但是如果我想将结果存储在 A 中怎么办？不管怎样？我可以用指针调用它吗 *C = *A这样: 不用担心我可能会将输出写入矩阵，但仍将其作为输入读取？？如果是
转置时澄清 CUBLAS 中的主要维度
对于矩阵A，documentation仅说明相应的前导维度参数 lda 指的是: leading dimension of two-dimensional array used to store th
cuda - 来自设备的 cublas 矩阵求逆
我正在尝试从设备运行矩阵求逆。如果从主机调用，此逻辑工作正常。编译行如下(Linux): nvcc -ccbin g++ -arch=sm_35 -rdc=true simple-inv.cu -o
cuda - cuBLAS argmin -- 如果输出到设备内存会出现段错误吗？
在 cuBLAS 中，cublasIsamin()给出单精度数组的 argmin。这是完整的函数声明:cublasStatus_t cublasIsamin(cublasHandle_t handl
boost - BLAS 和 CUBLAS
我想知道 NVIDIA 的 cuBLAS 库。有没有人有这方面的经验？例如，如果我使用 BLAS 编写一个 C 程序，我是否能够用对 cuBLAS 的调用替换对 BLAS 的调用？或者甚至更好地实现一
performance - CUBLAS dgemm 性能查询
这些是我在 4 个 GPU 上运行 cublas DGEMM 的结果，每个 GPU 使用 2 个流(Tesla M2050): 我已经测试了我的结果，它们没问题；与使用默认流的版本相比，我担心我获得的

首页

博学

6Ren·AI

商城

gpu - cublas 的tensorflow运行错误