c++ - 使用 cuda 7.0 RC 的 cusolver 计算特征值和特征向量-6ren

c++ - 使用 cuda 7.0 RC 的 cusolver 计算特征值和特征向量

转载作者：搜寻专家更新时间：2023-10-31 02:23:47

我正在尝试使用 CUDA 7.0 RC 中发布的 cuSolver 计算最大的特征值/特征向量对。问题是我遇到了 CUSOLVER_INTERNAL_ERROR，我不知道该怎么办。

这是我手头的东西，用来调用cuda/cusparse/cusolver函数。

// my handy stuff
#define CUDA_CALL(value) do {                                                     \
    cudaError_t _m_cudaStat = value;                                                  \
    if (_m_cudaStat != cudaSuccess) {                                               \
        fprintf(stderr, "Error %s at line %d in file %s\N",                 \
                cudaGetErrorString(_m_cudaStat), __LINE__, __FILE__);       \
        exit(-1);                                                                             \
    } 
} while(0)

#define CUSPARSE_CALL(value) do {                                                                 \
    cusparseStatus_t _m_status = value;                                                             \
    if (_m_status != CUSPARSE_STATUS_SUCCESS){                                                      \
        fprintf(stderr, "Error %d at line %d in file %s\N", (int)_m_status, __LINE__, __FILE__);    \
    exit(-5);                                                                                     \
    }                                                                                             \
} while(0)

#define CUSOLVER_CALL(value) do {                                                                 \
    cusolverStatus_t _m_status = value;                                                             \
    if (_m_status != CUSOLVER_STATUS_SUCCESS){                                                      \
        fprintf(stderr, "Error %d at line %d in file %s\N", (int)_m_status, __LINE__, __FILE__);    \
    exit(-5);                                                                                     \
    }                                                                                             \
} while(0)

这是我的代码

#include "cusparse.h"
#include "cusolverSp.h"
#include <cuda_runtime.h>
#include <math.h>

void dpss( size_t N, double NW, double *eigenvector );

int main()
{
    // parameters for generation of dpss
    size_t N = 128;
    double NW = 1;

    double *eigenvector = NULL;
    eigenvector = new double[ N*sizeof( double ) ];
    dpss( N, NW, eigenvector );

    return 0;
}

void dpss( size_t N, double NW, double *eigenvector )
{
    // define matrix T (NxN) 
    double** T = new double*[ N ];
    for(int i = 0; i < N; ++i)
        T[ i ] = new double[ N ];

    // fill in T as function of ( N, W ) 
    // T is a tridiagonal matrix, i. e., it has diagonal, subdiagonal and superdiagonal
    // the others elements are 0
    for (int i = 0; i < N; i++) {
        for (int j = 0; j < N; j++) {
            if( j == i - 1 ) // subdiagonal
                T[ i ][ j ] = ( (double)N - i )*i/2;
            else if( j == i ) // diagonal
                T[ i ][ j ] = pow( (double)(N-1)/2 - i, 2 )*std::cos( 2*NW/(double)N*M_PI )*( j == i );
            else if( j == i + 1 ) // superdiagonal
                T[ i ][ j ] = ( i + 1 )*( (double)N - 1 - i )/2*( j == i + 1 );
            else // others elements
                T[ i ][ j ] = 0;
        }
    }

    // declarations needed
    cusolverStatus_t statCusolver = CUSOLVER_STATUS_SUCCESS;
    cusolverSpHandle_t handleCusolver = NULL;
    cusparseHandle_t handleCusparse = NULL;
    cusparseMatDescr_t descrA = NULL;
    int *h_cooRowIndex = NULL, *h_cooColIndex = NULL;
    double *h_cooVal = NULL; 
    int *d_cooRowIndex = NULL, *d_cooColIndex = NULL, *d_csrRowPtr = NULL; 
    double *d_cooVal = NULL; 
    int nnz; 
    double *h_eigenvector0 = NULL, *d_eigenvector0 = NULL, *d_eigenvector = NULL;
    double max_lambda;

    // define interval of eigenvalues of T
    // interval is [-max_lambda,max_lambda]
    max_lambda = ( N - 1 )*( N + 2 ) + N*( N + 1 )/8 + 0.25;

    // amount of nonzero elements of T
    nnz = 3*N - 2;

    // allocate host memory
    h_cooRowIndex = new int[ nnz*sizeof( int ) ];
    h_cooColIndex = new int[ nnz*sizeof( int ) ];
    h_cooVal = new double[ nnz*sizeof( double ) ];
    h_eigenvector0 = new double[ N*sizeof( double ) ];

    // fill in vectors that describe T as a sparse matrix
    int counter = 0;
    for (int i = 0; i < N; i++ ) {
        for( int j = 0; j < N; j++ ) {
            if( T[ i ][ j ] != 0 ) {
                h_cooColIndex[counter] = j;
                h_cooRowIndex[counter] = i;
                h_cooVal[counter++] = T[ i ][ j ];
            }
        }
    }

    // fill in initial eigenvector guess  
    for( int i = 0; i < N; i++ )
        h_eigenvector0[ i ] =  (double)1/(i+1);

    // allocate device memory
    CUDA_CALL( cudaMalloc((void**)&d_cooRowIndex,nnz*sizeof( int )) ); 
    CUDA_CALL( cudaMalloc((void**)&d_cooColIndex,nnz*sizeof( int )) ); 
    CUDA_CALL( cudaMalloc((void**)&d_cooVal, nnz*sizeof( double )) );
    CUDA_CALL( cudaMalloc((void**)&d_csrRowPtr, (N+1)*sizeof( int )) );
    CUDA_CALL( cudaMalloc((void**)&d_eigenvector0, N*sizeof( double )) );
    CUDA_CALL( cudaMalloc((void**)&d_eigenvector, N*sizeof(d_eigenvector[0])) );

    // copy data to device
    CUDA_CALL( cudaMemcpy( d_cooRowIndex, h_cooRowIndex, (size_t)(nnz*sizeof( int )), cudaMemcpyHostToDevice ) );
    CUDA_CALL( cudaMemcpy( d_cooColIndex, h_cooColIndex, (size_t)(nnz*sizeof( int )), cudaMemcpyHostToDevice ) );
    CUDA_CALL( cudaMemcpy( d_cooVal, h_cooVal, (size_t)(nnz*sizeof( double )), cudaMemcpyHostToDevice ) );
    CUDA_CALL( cudaMemcpy( d_eigenvector0, h_eigenvector0, (size_t)(N*sizeof( double )), cudaMemcpyHostToDevice ) );

    // initialize cusparse and cusolver
    CUSOLVER_CALL( cusolverSpCreate( &handleCusolver ) );
    CUSPARSE_CALL( cusparseCreate( &handleCusparse ) );

    // create and define cusparse matrix descriptor
    CUSPARSE_CALL( cusparseCreateMatDescr(&descrA) );
    CUSPARSE_CALL( cusparseSetMatType(descrA, CUSPARSE_MATRIX_TYPE_GENERAL ) );
    CUSPARSE_CALL( cusparseSetMatIndexBase(descrA, CUSPARSE_INDEX_BASE_ZERO ) );

    // transform from coordinates (COO) values to compressed row pointers (CSR) values
    CUSPARSE_CALL( cusparseXcoo2csr( handleCusparse, d_cooRowIndex, nnz, N, d_csrRowPtr, CUSPARSE_INDEX_BASE_ZERO ) );

    // define some parameters and call cusolverSpScsreigvsi
    int maxite = 1e6;
    double tol = 1;
    double mu = 0;
    statCusolver = cusolverSpDcsreigvsi( handleCusolver, N ,nnz, descrA, d_cooVal, d_csrRowPtr, d_cooColIndex, max_lambda, d_eigenvector0, maxite, tol, &mu, d_eigenvector );
// here statCusolver = CUSOLVER_INTERNAL_ERROR

    cudaDeviceSynchronize();
    CUDA_CALL( cudaGetLastError() );

    // copy from device to host
    CUDA_CALL( cudaMemcpy( h_eigenvector0, d_eigenvector, (size_t)(N*sizeof( double )), cudaMemcpyDeviceToHost ) );

    // destroy and free stuff
    CUSPARSE_CALL( cusparseDestroyMatDescr( descrA ) );
    CUSPARSE_CALL( cusparseDestroy( handleCusparse ) );
    CUSOLVER_CALL( cusolverSpDestroy( handleCusolver ) );
    CUDA_CALL( cudaFree( d_cooRowIndex ) );
    CUDA_CALL( cudaFree( d_cooColIndex ) );
    CUDA_CALL( cudaFree( d_cooVal ) );
    CUDA_CALL( cudaFree( d_csrRowPtr ) );
    CUDA_CALL( cudaFree( d_eigenvector0 ) );
    CUDA_CALL( cudaFree( d_eigenvector ) );
    delete[] h_eigenvector0;
    delete[] h_cooRowIndex;
    delete[] h_cooColIndex;
    delete[] h_cooVal;
}

我已经为初始特征值猜测(即 max_lambda - 或 cuSolver 库教程中的 mu0)、初始特征向量猜测(h_eigenvector0 或 d_eigenvector0)、容差 (tol)、甚至最大迭代量 (maxite) 尝试了不同的选择。

我已经检查过稀疏矩阵是否正确编写(对我来说似乎是正确的)。我还用 Matlab 检查了返回的特征向量，它们完全不同(我认为它们不应该)。

我不知道我还能做什么，但如果有人知道，请告诉我!!

提前致谢。

最佳答案

(在我看来)cuSolver 文档在 mu 参数方面可能不正确。

文档似乎表明这是在主机内存空间中，即倒数第二个参数应该是主机指针。

如果我将其更改为设备指针:

double mu = 0;
double *d_mu;
CUDA_CALL(cudaMalloc(&d_mu, sizeof(double)));
CUDA_CALL(cudaMemset(d_mu, 0, sizeof(double)));
CUSOLVER_CALL(cusolverSpDcsreigvsi( handleCusolver, N ,nnz, descrA, d_cooVal, d_csrRowPtr, d_cooColIndex, max_lambda, d_eigenvector0, maxite, tol, d_mu, d_eigenvector ));

...
CUDA_CALL(cudaMemcpy(&mu, d_mu, sizeof(double), cudaMemcpyDeviceToHost));

我可以让您的代码版本在没有任何 API 错误或 cuda-memcheck 错误的情况下运行。 (我不能保证结果。)

我已经向 NVIDIA 提交了文档查询。如果您可以确认您通过此更改获得了合理的结果，那也可能有用。我查看了生成的特征值和特征向量，虽然它们看起来并不奇怪，但我无法让它们与我在 Octave 中做同样事情的尝试完全相关。

关于c++ - 使用 cuda 7.0 RC 的 cusolver 计算特征值和特征向量，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/28918447/

文章推荐： c++ - 创建 boost::asio::ip::address_v4

文章推荐： c++ - 反转 int 中的 n 个不同的随机位

文章推荐： c++ - Lua 和 C++ 绑定(bind)——这一行是什么意思？

module - `alloc::rc::Rc` 和 `std::rc::Rc` 有什么区别？
我很好奇这两个模块在实践中有什么区别吗？如果不是，为什么会有这两个副本？最佳答案 std::rc::Rc只是 alloc::rc::Rc 的再导出.你可以在src/std/lib.rs中看到整个rc
rust - Rust 中的 Rc::clone(&rc) 和 rc.clone() 之间有什么区别吗？是否有基于此的编译优化？
我注意到 rust 书推荐使用 Rc::clone(&rc)在rc.clone()如下: use std::rc::Rc; let five = Rc::new(5); // recommended
angular - 如何将 Angular 2 RC 1(或更早版本)表单迁移到 Angular 2 RC 2/RC 4 新表单
我需要将我现有的 Angular 2 RC 1 应用程序迁移到 Angular 2 RC 4。作为其中的一部分，我还需要将我现有的表单迁移到 Angular 2 RC 4 New Forms。任何人
selenium-rc - 如何测试 Selenium RC 中哪个元素具有焦点？
如何测试 Selenium RC 中哪个元素具有焦点？最佳答案当我遇到同样的问题时，出于各种原因，其他答案都不适合我。我最终做了以下操作(使用 Java 中的 Selenium 2.0 WebDr
将 Rc 转换为 Rc
Horse是一个实现 Animal 的结构特征。我有一个 Rc和一个需要接收 Rc 的函数, 所以我想从 Rc 转换至 Rc . 我这样做了: use std::rc::Rc; struct Hors
rust - 可以将 std::rc::Rc 与特征类型一起使用吗？
代码如下所示: // Simplified pub trait Field: Send + Sync + Clone { fn name(&self); } #[deriving(Clone)
【Linux基础入门教程】Linux /etc/rc.d/rc.local配置文件用法
在 /etc/rc[06].d/ 目录中的程序启动之后，系统的启动就已经完成。不过，我们总有一些程序是需要在系统启动之后随着系统一起启动的。这时我们并不需要自己把需要启动的服务链接到 /etc/rc3
selenium-rc - 使用 Selenium RC 测试 Flash
我正在使用 selenium rc，我需要测试 flash。我需要单击 Flash 播放器上的允许按钮。我只是需要一些帮助才能开始？最佳答案通常，除非在 Flash 开发人员的帮助下将 Sele
rust - 为什么 std::rc::Rc 需要 PhantomData？
我知道 PhantomData旨在使用数据类型定义中的生命周期或类型参数，否则这些参数将不会被使用。我最近在查看 Rc 的定义在Rust std lib并注意到它似乎使用了 PhantomData ,
rust - 为什么 std::rc::Rc<> 不是 Copy？
谁能给我解释一下为什么Rc<>不是 Copy ？我正在编写使用大量共享指针的代码，并且必须输入 .clone()总是让我心烦意乱。在我看来Rc<>应该只包含一个固定大小的指针，所以类型本身应该是
rust - 如何构建 Rc 或 Rc<[T]>？
我想创建一个 Rc因为我想减少跟踪访问 Rc 的 2 个指针的间接访问需要。我需要使用 Rc因为我确实拥有共享所有权。我在 another question 中详细说明关于我的字符串类型的更具体的问题
selenium-rc - 了解 Selenium IDE 与 Selenium RC
Selenium IDE 和 Selenium RC 的功能有什么区别？最佳答案 Selenium IDE 是一个 firefox 插件，它为您提供了用于记录测试的基本记录器。这些测试使用关键字记录
selenium-rc - 使用 Selenium RC 购买 Paypal-Sandbox
我正在尝试使用 Selenium RC (Java) 在 Paypal-Sandbox 上购买东西，但它不起作用。我用 Selenium IDE (Firefox AddOn) 试过了，它确实有效。
rust - 是否可以将 Rc 映射为 Rc？
我有一个 Rc>但需要得到一个Rc从中。像这样的东西: let rc_option: Rc> = Rc::new(Ok(value)); let ok_value: Rc = rc_option.ma
python - matplotlib.rc 和 matplotlib.pyplot.rc 有什么区别？
我知道在 matplotlib 中，您可以使用 rc 或 rcParams 来自定义绘图的样式。但是，这些函数似乎存在于两个级别，例如 matplotlib.rc 与 matplotlib.pyplo
rust - Rc> 和 RefCell> 有什么区别？
Rust 文档涵盖 Rc>相当广泛，但不涉及 RefCell> ，我现在遇到了。这些是否有效地给出了相同的结果？它们之间有重要区别吗？最佳答案 Do these effectively give
rust - 克隆并返回 Rc 时为 "Expected reference, found struct Rc"
我有一段代码是这样的: use std::cell::RefCell; use std::rc::Rc; struct A(bool); impl A { fn get_ref(&self)
rust - Rc> 和 RefCell> 有什么区别？
Rust 文档涵盖 Rc>相当广泛，但不涉及 RefCell> ，我现在遇到了。这些是否有效地给出了相同的结果？它们之间有重要区别吗？最佳答案 Do these effectively give
rust - "expected struct ` std::rc::Rc `, found reference"- 如何转换？
我试图获得引用计数 Rc从 HashMap 并将其放入不同的容器 ( Vec )。原以为这会起作用(通过增加引用计数)，但我却收到了一个“expected struct std::rc::Rc ,
ubuntu系统中/etc/rc.local和/etc/init.d/rc.local的区别详解
前言我们在ubuntu下要把一个程序加入开机启动，一般可以通过修改rc.local来完成，但ubuntu下有两个rc.local文件。分别是/etc/rc.local和/etc/init.d/r

搜寻专家

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 使用 cuda 7.0 RC 的 cusolver 计算特征值和特征向量