c++ - 只有在展开循环时才会出现未指定的启动错误？-6ren

c++ - 只有在展开循环时才会出现未指定的启动错误？

转载作者：塔克拉玛干更新时间：2023-11-03 07:32:22

更新:标题具有误导性。最初我可以通过展开下面代码中的 block 循环来使错误消失。现在，即使是简单的代码更改也可以让它消失。 (参见下面的代码示例)。

背景:

12x12 矩阵的 Cholesky 分解的 CUDA C 内核实现导致相当大的 CUDA 内核(280 行代码，大量循环)。

我用简化的设置重现了错误(下面的代码)。 NVCC (CUDA 4.2) 调用

nvcc -arch sm_20 -o main main.cu

在 Linux 上的 Fermi 架构上执行:

kernel call: unspecified launch failure

内核主体包含一个条件预处理器 block #if 1、#else、#endif。我插入它是为了在工作版本和非工作版本之间轻松切换。编译第一个替代结果会导致 未指定的启动失败。而第二种选择运行良好。

棘手的部分是，实际执行的代码在任何一种情况下都应该相同。 (hasOrderedRep 是真的!!)

即使 #if 1 语句保持不变，仍然可以使错误消失。因此必须展开 block 循环。这就是标题的来源。

#include "cuda.h"
#include "stdio.h"
#include <iostream>
#include <string>

using namespace std;

/////////////////////////////////////
//
// First some basic types I need
// Implementation of a templated
// scalar and complex number

template<class T> class RScalar
{
public:
  __device__  RScalar() {}

  __device__  ~RScalar() {}

  template<class T1>  __device__   
  RScalar(const RScalar<T1>& rhs) : F(rhs.elem()) {}

  template<class T1>  __device__
  RScalar(const T1& rhs) : F(rhs) {}

  template<class T1> __device__ inline
  RScalar& operator=(const RScalar<T1>& rhs)  {
    elem() = rhs.elem();
    return *this;
  }

public:
  __device__ T& elem() {return F;}
  __device__ const T& elem() const {return F;}

private:
  T F;
};



template<class T> class RComplex
{
public:
  __device__  RComplex() {}

  __device__  ~RComplex() {}

  template<class T1, class T2>  __device__
  RComplex(const RScalar<T1>& _re, const RScalar<T2>& _im): 
    re(_re.elem()), im(_im.elem()) {}

  template<class T1, class T2>  __device__
  RComplex(const T1& _re, const T2& _im): re(_re), im(_im) {}

  template<class T1>  __device__
  RComplex(const T1& _re): re(_re), im() {}

  template<class T1>
  __device__ inline
  RComplex& operator*=(const RScalar<T1>& rhs) 
    {
      real() *= rhs.elem();
      imag() *= rhs.elem();
      return *this;
    }

  template<class T1>
  __device__ inline
  RComplex& operator-=(const RComplex<T1>& rhs) 
    {
      real() -= rhs.real();
      imag() -= rhs.imag();
      return *this;
    }



  template<class T1>  __device__ inline
  RComplex& operator/=(const RComplex<T1>& rhs) 
    {
      RComplex<T> d;
      d = *this / rhs;
      real() = d.real();
      imag() = d.imag();
      return *this;
    }


public:
  __device__ T& real() {return re;}
  __device__ const T& real() const {return re;}

  __device__ T& imag() {return im;}
  __device__ const T& imag() const {return im;}

private:
  T re;
  T im;
};


template<class T> __device__ RComplex<T>
operator*(const RComplex<T>& __restrict__ l, 
      const RComplex<T>& __restrict__ r) 
{
  return RComplex<T>(l.real()*r.real() - l.imag()*r.imag(),
             l.real()*r.imag() + l.imag()*r.real());
}


template<class T> __device__ RComplex<T>
operator/(const RComplex<T>& l, const RComplex<T>& r)
{
  T tmp = T(1.0) / (r.real()*r.real() + r.imag()*r.imag());

  return RComplex<T>((l.real()*r.real() + l.imag()*r.imag()) * tmp,
             (l.imag()*r.real() - l.real()*r.imag()) * tmp);
}


template<class T> __device__ RComplex<T>
operator*(const RComplex<T>& l, const RScalar<T>& r)
{
  return RComplex<T>(l.real()*r.elem(), 
             l.imag()*r.elem());
}

//
//
//////////////////////////////////////////////



#define REALT float
#define Nc 3

struct PrimitiveClovTriang
{
  RScalar<REALT>   diag[2][2*Nc];
  RComplex<REALT>  offd[2][2*Nc*Nc-Nc];
};

__global__ void kernel(bool hasOrderedRep, int * siteTable, 
               PrimitiveClovTriang* tri)
{
  RScalar<REALT> zip=0;
  int N = 2*Nc;
  int site;


  //
  // First if-block results in an error,
  // second, runs fine! Since hasOrderedRep
  // is true, the code blocks should be
  // identical.
  //
#if 1
  if (hasOrderedRep) {
    site = blockDim.x * blockIdx.x + 
      blockDim.x * gridDim.x * blockIdx.y + 
      threadIdx.x;
  } else {
    int idx0 = blockDim.x * blockIdx.x + 
      blockDim.x * gridDim.x * blockIdx.y + 
      threadIdx.x;
    site = ((int*)(siteTable))[idx0];
  }
#else
  site = blockDim.x * blockIdx.x + blockDim.x * gridDim.x * blockIdx.y + threadIdx.x;
#endif

  int site_neg_logdet=0;
  for(int block=0; block < 2; block++) { 
    RScalar<REALT> inv_d[6];
    RComplex<REALT> inv_offd[15];
    RComplex<REALT> v[6];
    RScalar<REALT>  diag_g[6];
    for(int i=0; i < N; i++) { 
      inv_d[i] = tri[site].diag[block][i];
    }
    for(int i=0; i < 15; i++) { 
      inv_offd[i]  =tri[site].offd[block][i];
    }
    for(int j=0; j < N; ++j) { 
      for(int i=0; i < j; i++) { 
    int elem_ji = j*(j-1)/2 + i;
    RComplex<REALT> A_ii = RComplex<REALT>( inv_d[i], zip );
    v[i] = A_ii*RComplex<REALT>(inv_offd[elem_ji].real(),-inv_offd[elem_ji].imag());
      }
      v[j] = RComplex<REALT>(inv_d[j],zip);
      for(int k=0; k < j; k++) { 
    int elem_jk = j*(j-1)/2 + k;
    v[j] -= inv_offd[elem_jk]*v[k];
      }
      inv_d[j].elem() = v[j].real();
      for(int k=j+1; k < N; k++) { 
    int elem_kj = k*(k-1)/2 + j;
    for(int l=0; l < j; l++) { 
      int elem_kl = k*(k-1)/2 + l;
      inv_offd[elem_kj] -= inv_offd[elem_kl] * v[l];
    }
    inv_offd[elem_kj] /= v[j];
      }
    }
    RScalar<REALT> one;
    one.elem() = (REALT)1;
    for(int i=0; i < N; i++) { 
      diag_g[i].elem() = one.elem()/inv_d[i].elem();
      //      ((PScalar<PScalar<RScalar<float> > > *)(args->dev_ptr[ 1 ] ))[site] .elem().elem().elem() += log(fabs(inv_d[i].elem()));
      if( inv_d[i].elem() < 0 ) { 
    site_neg_logdet++;
      }
    }
    RComplex<REALT> sum;
    for(int k = 0; k < N; ++k) {
      for(int i = 0; i < k; ++i) {
    v[i].real()=v[i].imag()=0;
      }
      v[k] = RComplex<REALT>(diag_g[k],zip);
      for(int i = k+1; i < N; ++i) {
    v[i].real()=v[i].imag()=0;
    for(int j = k; j < i; ++j) {
      int elem_ij = i*(i-1)/2+j;    
      v[i] -= inv_offd[elem_ij] *inv_d[j]*v[j];
    }
    v[i] *= diag_g[i];
      }
      for(int i = N-2; (int)i >= (int)k; --i) {
    for(int j = i+1; j < N; ++j) {
      int elem_ji = j*(j-1)/2 + i;
      v[i] -= RComplex<REALT>(inv_offd[elem_ji].real(),-inv_offd[elem_ji].imag()) * v[j];
    }
      }
      inv_d[k].elem() = v[k].real();
      for(int i = k+1; i < N; ++i) {
    int elem_ik = i*(i-1)/2+k;
    inv_offd[elem_ik] = v[i];
      }
    }
    for(int i=0; i < N; i++) { 
      tri[site].diag[block][i] = inv_d[i];
    }
    for(int i=0; i < 15; i++) { 
      tri[site].offd[block][i] = inv_offd[i];
    }
  }
  if( site_neg_logdet != 0 ) { 
  }

}




int main()
{
  int sites=1;

  dim3  blocksPerGrid( 1 , 1 , 1 );
  dim3  threadsPerBlock( sites , 1, 1);

  PrimitiveClovTriang* tri_dev;
  int * siteTable;
  cudaMalloc( (void**)&tri_dev , sizeof(PrimitiveClovTriang) * sites );
  cudaMalloc( (void**)&siteTable , sizeof(int) * sites );
  bool ord=true;

  kernel<<< blocksPerGrid , threadsPerBlock , 0 >>>( ord , siteTable , tri_dev );

  cudaDeviceSynchronize();
  cudaError_t kernel_call = cudaGetLastError();

  cout << "kernel call: " << string(cudaGetErrorString(kernel_call)) << endl;
  cudaFree(tri_dev);
  cudaFree(siteTable);

  return(0);
}

请注意，siteTable 包含未初始化的数据。这很好，因为它没有被使用。我需要它来显示错误。

更新:

刚在另一台安装了 CUDA 4.0 的机器上试过。那里没有出现错误(相同的费米卡模型)。可能真的是 CUDA 4.2 的 NVCC 错误。由于他们从 CUDA 4.1 切换到 LLVM，这很可能是一个错误。

最佳答案

此问题似乎是由基于 LLVM 的 CUDA 工具链的早期版本中的细微编译器错误引起的。该错误不会在更现代的工具链版本(CUDA 6.x 和 7.x)上重现。

[此答案已添加为来自评论和编辑的社区 wiki 条目，以便将问题从 CUDA 标签的已回答列表中删除]

关于c++ - 只有在展开循环时才会出现未指定的启动错误？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/10548151/

文章推荐： c++ - 尝试使用 make 文件编译时出错

文章推荐： c++ - Pthread 阻塞/可更新计时器

文章推荐： c++ - ADL 无法找到具有用户定义类型的适当限定符的流运算符

c++ - C c;之间有什么区别吗？和 C c = C();?
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
c++ - C 风格字符串差异 : C/C++
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
c++ - c\c++ 转换为 C#
关闭。此题需要details or clarity 。目前不接受答案。想要改进这个问题吗？通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。此帖子已于 8 个月
c# - C、C++、C# 的功能测试工具
除了调试之外，是否有任何针对 c、c++ 或 c# 的测试工具，其工作原理类似于将独立函数复制粘贴到某个文本框，然后在其他文本框中输入参数？最佳答案也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
c# - C/C++/C# 在监视器上设置窗口位置
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法，例如将分辨率加倍或输入负值，但它永远无法将窗口放在我的第二台显示器上。关于如何在 C/C++/c# 中执行此操作的任何线索最
c# - C/C++/C#中的DES实现
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。我正在尝试编写一个 C# 程序，它将使用 DES 算法进行加密和解密。我需要一些实
c# - 在条件中使用赋值是否安全？ C/C++、C#
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
c++ - C/C++/C# 强制窗口在最上面
有没有办法强制将另一个窗口置于顶部？不是应用程序的窗口，而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
c# - 套接字服务器应用程序的选择 : C/C++ or C#
假设您可以在 C/C++ 或 Csharp 之间做出选择，并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例，那么构建套接字服务器应用程序的最明智选择是什么？最佳答案如
c++ - C/C++ 运行时库和 C/C++ 标准库的区别
你们能告诉我它们之间的区别吗？顺便问一下，有什么叫C++库或C库的吗？最佳答案 C++ 标准库和 C 标准库是 C++ 和 C 标准定义的库，提供给 C++ 和 C 程序使用。那是那些词的共同
c++ - &C::c 和 &(C::c) 有什么区别？
下面的测试代码，我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
c++ - 什么 C++(通用 (c/c++) 与 (通用 c)/c++ )
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它，visit the help center 。已关
c# - 通过网络在 C/C++ 服务器、C/C++ 和 C# 客户端之间发送数据结构
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端我想也许我应该使用
c# - C/C++ - 如何将 Buffer.BlockCopy (C#) 转换为 C/C++
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
c++ - C/C++ - 对其他人隐藏 C 或 C++ 函数代码
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码，但我不想与雇主共享该函数的代码。相反，我只想让他有权在他自己的代码中调用该函数。是否可以？我想到了这两种方法 - 在
c# - 在托管代码(C++、C、C++/CLI、C#)中使用非托管代码时处理错误
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等，
c# - C#、C/C++ 或 Objective-C 中的眼动追踪库
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭 7 年前。
c++ - C/C++/Objective-C 文本识别库
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，因为
c# - 将 C/C++ 函数导入 C#
我有一些 C 代码，将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
c - C语言中 "c -= --c - c++;"的结果应该是什么？
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c++ - 只有在展开循环时才会出现未指定的启动错误？