c++ - 将 cuBLAS 与来自 Thrust 的复数结合使用-6ren

c++ - 将 cuBLAS 与来自 Thrust 的复数结合使用

转载作者：行者123 更新时间：2023-11-28 01:49:47

在我的代码中，我使用推力库中的复数数组，我想使用 cublasZgeam() 来转置数组。

使用 cuComplex.h 中的复数不是一个更好的选择，因为我在数组上做了很多算术运算，而 cuComplex 没有定义运算符，例如 * +=。

这就是我定义要转置的数组的方式

thrust::complex<float> u[xmax][xmax];

我找到了这个https://github.com/jtravs/cuda_complex ，但这样使用它:

#include "cuComplex.hpp"

在使用 nvcc 编译时不允许我使用提到的运算符

error: no operator "+=" matches these operands
        operand types are: cuComplex += cuComplex

有解决办法吗？来自 github 的代码很旧，可能存在问题或者我使用错误

编辑:这是有效的代码，与 talonmies 代码的唯一区别是添加了简单的内核和指向相同数据的指针，但是 thrust::complex

#include <iostream>
#include <thrust/fill.h>
#include <thrust/complex.h>
#include <cublas_v2.h>

using namespace std;

__global__ void test(thrust::complex<double>* u) {

  u[0] += thrust::complex<double>(3.3,3.3);
}

int main()
{
  int xmax = 100;
  thrust::complex<double>  u[xmax][xmax];
  double arrSize = sizeof(thrust::complex<double>) * xmax * xmax;

  thrust::fill(&u[0][0], &u[0][0] + (xmax * xmax), thrust::complex<double>(1.0,1.0));
  u[49][51] += thrust::complex<double>(665.0,665.0);
  u[51][49] *= 2.0;

  cout << "Before:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;
  cout << u[0][0] << endl;

  thrust::complex<double> alpha(1.0, 0.0);
  thrust::complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  cuDoubleComplex* d_u;
  cuDoubleComplex* d_v;
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);
  cudaMalloc(&d_u, arrSize);
  cudaMalloc(&d_v, arrSize);
  cudaMemcpy(d_u, &u[0][0], arrSize, cudaMemcpyHostToDevice);
  thrust::complex<double>* d_vTest = reinterpret_cast<thrust::complex<double>* >(d_v);
  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, d_u, xmax,
                  _beta,  d_u, xmax,
                  d_v, xmax);
  test<<<1,1>>>(d_vTest);
  cudaMemcpy(u, d_v, arrSize, cudaMemcpyDeviceToHost);
  cout << "After:" << endl;
  cout << u[0][0] << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  return 0;
}

最佳答案

尽管您提出相反的抗议，C++ 标准库 complex (或 thrust::complex )肯定可以与 CUBLAS 一起使用。 cuComplex和 cuDoubleComplex设计为与标准主机复杂类型二进制兼容，以便在将数据传递给在设备上使用复杂数据的 CUBLAS 函数时不会转换数据。

对您在评论中发布的代码进行简单的修改，就可以像您想象的那样工作:

#include <algorithm>
#include <iostream>
#include <complex>
#include <cublas_v2.h>

using namespace std;

int main()
{
  int xmax = 100;
  complex<double>  u[xmax][xmax];
  size_t arrSize = sizeof(complex<double>) * xmax * xmax;

  fill(&u[0][0], &u[0][0] + (xmax * xmax), complex<double>(1.0,1.0));
  u[49][51] += complex<double>(665.0,665.0);
  u[51][49] *= 2.0;

  cout << "Before:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  complex<double> alpha(1.0, 0.0);
  complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  cuDoubleComplex* d_u;
  cuDoubleComplex* d_v;
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);
  cudaMalloc(&d_u, arrSize);
  cudaMalloc(&d_v, arrSize);
  cudaMemcpy(d_u, &u[0][0], arrSize, cudaMemcpyHostToDevice);
  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, d_u, xmax,
                  _beta,  d_u, xmax,
                  d_v, xmax);

  cudaMemcpy(u, d_v, arrSize, cudaMemcpyDeviceToHost);
  
  cout << "After:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  return 0;
}

像这样构建和运行:

~/SO$ nvcc -std=c++11 -arch=sm_52 -o complex_transpose complex_transpose.cu -lcublas
~/SO$ ./complex_transpose 
Before:
(666,666)
(2,2)
After:
(2,2)
(666,666)

唯一需要修改的是 std::complex<double> 的显式转换类型为 cuDoubleComplex .这样做，一切都会按预期进行。

使用推力，代码看起来几乎一模一样:

#include <iostream>
#include <thrust/fill.h>
#include <thrust/complex.h>
#include <cublas_v2.h>

using namespace std;

int main()
{
  int xmax = 100;
  thrust::complex<double>  u[xmax][xmax];
  size_t arrSize = sizeof(thrust::complex<double>) * xmax * xmax;

  thrust::fill(&u[0][0], &u[0][0] + (xmax * xmax), thrust::complex<double>(1.0,1.0));
  u[49][51] += thrust::complex<double>(665.0,665.0);
  u[51][49] *= 2.0;

  cout << "Before:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  thrust::complex<double> alpha(1.0, 0.0);
  thrust::complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  cuDoubleComplex* d_u;
  cuDoubleComplex* d_v;
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);
  cudaMalloc(&d_u, arrSize);
  cudaMalloc(&d_v, arrSize);
  cudaMemcpy(d_u, &u[0][0], arrSize, cudaMemcpyHostToDevice);
  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, d_u, xmax,
                  _beta,  d_u, xmax,
                  d_v, xmax);

  cudaMemcpy(u, d_v, arrSize, cudaMemcpyDeviceToHost);
  
  cout << "After:" << endl;
  cout << u[49][51] << endl;
  cout << u[51][49] << endl;

  return 0;
}

也许更接近您的用例，使用带有内核的推力设备容器在 CUBLAS 调用之前执行一些初始化:

#include <iostream>
#include <thrust/device_vector.h>
#include <thrust/complex.h>
#include <thrust/execution_policy.h>
#include <thrust/copy.h>
#include <cublas_v2.h>

__global__ void setup_kernel(thrust::complex<double>* u, int xmax)
{
  u[51 + 49*xmax] += thrust::complex<double>(665.0,665.0);
  u[49 + 51*xmax] *= 2.0;
}

int main()
{
  int xmax = 100;

  thrust::complex<double> alpha(1.0, 0.0);
  thrust::complex<double> beta(0.0, 0.0);
  cublasHandle_t handle;
  cublasCreate(&handle);

  thrust::device_vector<thrust::complex<double>> d_u(xmax * xmax, thrust::complex<double>(1.0,1.0));
  thrust::device_vector<thrust::complex<double>> d_v(xmax * xmax, thrust::complex<double>(0.,0.));
  setup_kernel<<<1,1>>>(thrust::raw_pointer_cast(d_u.data()), xmax);

  cuDoubleComplex* _d_u = reinterpret_cast<cuDoubleComplex*>(thrust::raw_pointer_cast(d_u.data()));
  cuDoubleComplex* _d_v = reinterpret_cast<cuDoubleComplex*>(thrust::raw_pointer_cast(d_v.data()));
  cuDoubleComplex* _alpha = reinterpret_cast<cuDoubleComplex*>(&alpha);
  cuDoubleComplex* _beta = reinterpret_cast<cuDoubleComplex*>(&beta);

  cublasZgeam(handle, CUBLAS_OP_T, CUBLAS_OP_N, xmax, xmax,
                  _alpha, _d_u, xmax,
                  _beta, _d_u, xmax,
                  _d_v, xmax);

  thrust::complex<double>  u[xmax][xmax];

  thrust::copy(d_u.begin(), d_u.end(), &u[0][0]); 
  std::cout << "Before:" << std::endl;
  std::cout << u[49][51] << std::endl;
  std::cout << u[51][49] << std::endl;

  thrust::copy(d_v.begin(), d_v.end(), &u[0][0]); 
  std::cout << "After:" << std::endl;
  std::cout << u[49][51] << std::endl;
  std::cout << u[51][49] << std::endl;

  return 0;

}

关于c++ - 将 cuBLAS 与来自 Thrust 的复数结合使用，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43441573/

文章推荐： html - flexbox 没有采用正确的宽度 Angular

文章推荐： html - hover 和 focus 伪类 Action

文章推荐： jquery - 淡入后隐藏模态不居中

cublas - cublas 内核函数会自动与主机同步吗？
只是一个关于 cublas 的一般问题。对于单线程，如果没有从 GPU 到 CPU 的内存传输(例如 cublasGetVector)，cublas 内核函数(例如 cublasDgemm)是否会自动
CUBLAS 通用矩阵点积
我已经编写了一个struct 和一些包装“CUBLAS 矩阵对象”的函数 struct 是: #include #include #include #define uint unsigned i
cublas 矩阵乘法不符合预期
我正在尝试用 cublas 替换我的 gpu block 矩阵乘法，但我在 2x2 测试用例中没有得到我期望的结果: #include "cuda_runtime.h" #include "cubla
cuBLAS 同步最佳实践
我在 Stack Overflow 上阅读了两篇文章，即 Will the cublas kernel functions automatically be synchronized with the
cuda - 验证是否安装了 CUBLAS
如何检查是否安装了 cuBLAS。有没有一种简单的方法可以使用命令行来完成它而无需实际运行任何 cuda 代码行最佳答案尝试一下 cat /usr/local/cuda/include/cubla
matrix - CUBLAS - 矩阵元素求幂可能吗？
我正在使用 CUBLAS(Cuda Blas 库)进行矩阵运算。是否可以使用 CUBLAS 来实现矩阵项的求幂/均方根？我的意思是，有 2x2 矩阵 1 4 9 16 我想要的是一个提升到给定值的
c++ - CUBLAS 矩阵乘法与行主数据无转置
我目前正尝试在我的 GPU 上使用 CUBLAS 实现矩阵乘法。它适用于方矩阵和特定大小的输入，但对于其他输入，最后一行不会返回(并且包含 0，因为这是我实现它的方式)。我认为这是 cublasS
异步 cuBLAS 调用
我想异步调用 cuBLAS 例程。是否可以？如果是，我怎样才能实现这一目标？最佳答案在 cublas 调用之前使用 cublasSetStream 函数。 cublasSetStream(cubl
cuda - CUBLAS 同步
CUBLAS 文档提到我们在读取标量结果之前需要同步: “此外，少数返回标量结果的函数，例如 amax()、amin、asum()、rotg()、rotmg()、dot() 和 nrm2()，通过引用
cuda - CUBLAS 中的异步和内存所有权
CUBLAS 是一个异步库。传递给 CUBLAS 的参数对内存所有权有什么要求？很明显，在异步调用完成之前，不应释放由 CUBLAS 操作的矩阵 - 但标量参数呢？例如，下面的代码是声音: //.
gpu - cublas 的tensorflow运行错误
当我在集群上成功安装tensorflow时，我立即运行mnist demo来检查它是否顺利，但这里我遇到了一个问题。我不知道这是什么意思，但看起来错误来自 CUDA python3 -m tensor
cuda - CUBLAS 矩阵乘法
使用 CUDA 实现矩阵乘法后。我尝试用CUBLAS实现它(感谢论坛中一些人的建议)。我可以乘方阵，但是(是的，再次......)我在处理非方阵时遇到困难。唯一有效的非方阵乘法类型是当您改变矩阵 A
cuda - CUBLAS:零主元矩阵的不正确反演
从 CUDA 5.5 开始，CUBLAS 库包含用于批量矩阵分解和求逆的例程(分别为 cublasgetrfBatched 和 cublasgetriBatched )。从文档中获取指南，我编写了一
c++ - cuBlas 的不同结果
我已经实现了以下 CUDA 代码，但我对行为有点困惑。 #include #include #include #include #include "cublas_v2.h" #include
输入矩阵也可以用于存储 CUBLAS 的输出矩阵吗？
例如， cublasgeam() 会做: 但是如果我想将结果存储在 A 中怎么办？不管怎样？我可以用指针调用它吗 *C = *A这样: 不用担心我可能会将输出写入矩阵，但仍将其作为输入读取？？如果是
转置时澄清 CUBLAS 中的主要维度
对于矩阵A，documentation仅说明相应的前导维度参数 lda 指的是: leading dimension of two-dimensional array used to store th
cuda - 来自设备的 cublas 矩阵求逆
我正在尝试从设备运行矩阵求逆。如果从主机调用，此逻辑工作正常。编译行如下(Linux): nvcc -ccbin g++ -arch=sm_35 -rdc=true simple-inv.cu -o
cuda - cuBLAS argmin -- 如果输出到设备内存会出现段错误吗？
在 cuBLAS 中，cublasIsamin()给出单精度数组的 argmin。这是完整的函数声明:cublasStatus_t cublasIsamin(cublasHandle_t handl
boost - BLAS 和 CUBLAS
我想知道 NVIDIA 的 cuBLAS 库。有没有人有这方面的经验？例如，如果我使用 BLAS 编写一个 C 程序，我是否能够用对 cuBLAS 的调用替换对 BLAS 的调用？或者甚至更好地实现一
performance - CUBLAS dgemm 性能查询
这些是我在 4 个 GPU 上运行 cublas DGEMM 的结果，每个 GPU 使用 2 个流(Tesla M2050): 我已经测试了我的结果，它们没问题；与使用默认流的版本相比，我担心我获得的

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 将 cuBLAS 与来自 Thrust 的复数结合使用