- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在使用 CUBLAS(Cuda Blas 库)进行矩阵运算。
是否可以使用 CUBLAS 来实现矩阵项的求幂/均方根?
我的意思是,有 2x2 矩阵
1 4
9 16
1 16
81 256
1 2
3 4
最佳答案
所以这很可能是你必须自己实现的东西,因为库不会为你做。 (可能有一些方法可以根据 BLAS 3 级例程来实现它 - 当然是矩阵元素的平方 - 但它会涉及昂贵且不必要的矩阵向量乘法。我仍然不知道你是怎么做的d 做平方根运算)。原因是这些操作并不是真正的线性代数过程;取每个矩阵元素的平方根并不真正对应于任何基本的线性代数运算。
好消息是这些元素操作在 CUDA 中实现起来非常简单。同样,为了获得最佳性能,可以使用许多调整选项,但可以很容易地开始。
与矩阵加法运算一样,您将在此处将 NxM 矩阵视为 (N*M) 长度的向量;矩阵的结构对于这些元素操作无关紧要。因此,您将传入一个指向矩阵第一个元素的指针,并将其视为 N*M 数字的单个列表。 (我假设您在这里使用 float
s,因为您之前在谈论 SGEMM
和 SAXPY
。)
内核,即实现操作的实际 CUDA 代码位,非常简单。现在,每个线程将计算一个数组元素的平方(或平方根)。 (这对于性能而言是否最佳,您可以进行测试)。所以内核看起来像下面这样。我假设你正在做类似 B_ij = (A_ij)^2; 的事情。如果您想就地进行操作,例如 A_ij = (A_ij)^2,您也可以这样做:
__global__ void squareElements(float *a, float *b, int N) {
/* which element does this compute? */
int tid = blockDim.x * blockIdx.x + threadIdx.x;
/* if valid, squre the array element */
if (tid < N)
b[tid] = (a[tid]*a[tid]);
}
__global__ void sqrtElements(float *a, float *b, int N) {
/* which element does this compute? */
int tid = blockDim.x * blockIdx.x + threadIdx.x;
/* if valid, sqrt the array element */
if (tid < N)
b[tid] = sqrt(a[tid]); /* or sqrtf() */
}
关于matrix - CUBLAS - 矩阵元素求幂可能吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/5450053/
只是一个关于 cublas 的一般问题。对于单线程,如果没有从 GPU 到 CPU 的内存传输(例如 cublasGetVector),cublas 内核函数(例如 cublasDgemm)是否会自动
我已经编写了一个struct 和一些包装“CUBLAS 矩阵对象”的函数 struct 是: #include #include #include #define uint unsigned i
我正在尝试用 cublas 替换我的 gpu block 矩阵乘法,但我在 2x2 测试用例中没有得到我期望的结果: #include "cuda_runtime.h" #include "cubla
我在 Stack Overflow 上阅读了两篇文章,即 Will the cublas kernel functions automatically be synchronized with the
如何检查是否安装了 cuBLAS。有没有一种简单的方法可以使用命令行来完成它而无需实际运行任何 cuda 代码行 最佳答案 尝试一下 cat /usr/local/cuda/include/cubla
我正在使用 CUBLAS(Cuda Blas 库)进行矩阵运算。 是否可以使用 CUBLAS 来实现矩阵项的求幂/均方根? 我的意思是,有 2x2 矩阵 1 4 9 16 我想要的是一个提升到给定值的
我目前正尝试在我的 GPU 上使用 CUBLAS 实现矩阵乘法。 它适用于方矩阵和特定大小的输入,但对于其他输入,最后一行不会返回(并且包含 0,因为这是我实现它的方式)。 我认为这是 cublasS
我想异步调用 cuBLAS 例程。是否可以?如果是,我怎样才能实现这一目标? 最佳答案 在 cublas 调用之前使用 cublasSetStream 函数。 cublasSetStream(cubl
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外,少数返回标量结果的函数,例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2(),通过引用
CUBLAS 是一个异步库。传递给 CUBLAS 的参数对内存所有权有什么要求? 很明显,在异步调用完成之前,不应释放由 CUBLAS 操作的矩阵 - 但标量参数呢? 例如,下面的代码是声音: //.
当我在集群上成功安装tensorflow时,我立即运行mnist demo来检查它是否顺利,但这里我遇到了一个问题。我不知道这是什么意思,但看起来错误来自 CUDA python3 -m tensor
使用 CUDA 实现矩阵乘法后。我尝试用CUBLAS实现它(感谢论坛中一些人的建议)。 我可以乘方阵,但是(是的,再次......)我在处理非方阵时遇到困难。唯一有效的非方阵乘法类型是当您改变矩阵 A
从 CUDA 5.5 开始,CUBLAS 库包含用于批量矩阵分解和求逆的例程(分别为 cublasgetrfBatched 和 cublasgetriBatched )。 从文档中获取指南,我编写了一
我已经实现了以下 CUDA 代码,但我对行为有点困惑。 #include #include #include #include #include "cublas_v2.h" #include
例如, cublasgeam() 会做: 但是如果我想将结果存储在 A 中怎么办?不管怎样?我可以用指针调用它吗 *C = *A这样: 不用担心我可能会将输出写入矩阵,但仍将其作为输入读取?? 如果是
对于矩阵A,documentation仅说明相应的前导维度参数 lda 指的是: leading dimension of two-dimensional array used to store th
我正在尝试从设备运行矩阵求逆。如果从主机调用,此逻辑工作正常。 编译行如下(Linux): nvcc -ccbin g++ -arch=sm_35 -rdc=true simple-inv.cu -o
在 cuBLAS 中,cublasIsamin()给出单精度数组的 argmin。 这是完整的函数声明:cublasStatus_t cublasIsamin(cublasHandle_t handl
我想知道 NVIDIA 的 cuBLAS 库。有没有人有这方面的经验?例如,如果我使用 BLAS 编写一个 C 程序,我是否能够用对 cuBLAS 的调用替换对 BLAS 的调用?或者甚至更好地实现一
这些是我在 4 个 GPU 上运行 cublas DGEMM 的结果,每个 GPU 使用 2 个流(Tesla M2050): 我已经测试了我的结果,它们没问题;与使用默认流的版本相比,我担心我获得的
我是一名优秀的程序员,十分优秀!