gpt4 book ai didi

gpgpu - 似乎已达到CUDA限制,但是那是什么限制?

转载 作者:行者123 更新时间:2023-12-03 17:31:39 25 4
gpt4 key购买 nike

我有一个CUDA程序,似乎正在达到某种资源的某种极限,但是我无法弄清楚该资源是什么。这是内核函数:

__global__ void DoCheck(float2* points, int* segmentToPolylineIndexMap, 
int segmentCount, int* output)
{
int segmentIndex = threadIdx.x + blockIdx.x * blockDim.x;
int pointCount = segmentCount + 1;

if(segmentIndex >= segmentCount)
return;

int polylineIndex = segmentToPolylineIndexMap[segmentIndex];
int result = 0;
if(polylineIndex >= 0)
{
float2 p1 = points[segmentIndex];
float2 p2 = points[segmentIndex+1];
float2 A = p2;
float2 a;
a.x = p2.x - p1.x;
a.y = p2.y - p1.y;

for(int i = segmentIndex+2; i < segmentCount; i++)
{
int currentPolylineIndex = segmentToPolylineIndexMap[i];

// if not a different segment within out polyline and
// not a fake segment
bool isLegit = (currentPolylineIndex != polylineIndex &&
currentPolylineIndex >= 0);

float2 p3 = points[i];
float2 p4 = points[i+1];
float2 B = p4;
float2 b;
b.x = p4.x - p3.x;
b.y = p4.y - p3.y;

float2 c;
c.x = B.x - A.x;
c.y = B.y - A.y;

float2 b_perp;
b_perp.x = -b.y;
b_perp.y = b.x;

float numerator = dot(b_perp, c);
float denominator = dot(b_perp, a);
bool isParallel = (denominator == 0.0);

float quotient = numerator / denominator;
float2 intersectionPoint;
intersectionPoint.x = quotient * a.x + A.x;
intersectionPoint.y = quotient * a.y + A.y;

result = result | (isLegit && !isParallel &&
intersectionPoint.x > min(p1.x, p2.x) &&
intersectionPoint.x > min(p3.x, p4.x) &&
intersectionPoint.x < max(p1.x, p2.x) &&
intersectionPoint.x < max(p3.x, p4.x) &&
intersectionPoint.y > min(p1.y, p2.y) &&
intersectionPoint.y > min(p3.y, p4.y) &&
intersectionPoint.y < max(p1.y, p2.y) &&
intersectionPoint.y < max(p3.y, p4.y));
}
}

output[segmentIndex] = result;
}

这是执行内核函数的调用:
DoCheck<<<702, 32>>>(
(float2*)devicePoints,
deviceSegmentsToPolylineIndexMap,
numSegments,
deviceOutput);

参数的大小如下:
  • devicePoints = 22,464 float2s = 179,712字节
  • deviceSegmentsToPolylineIndexMap = 22,463个整数= 89,852字节
  • numSegments = 1 int = 4字节
  • deviceOutput = 22,463个整数= 89,852字节

  • 当我执行此内核时,它使视频卡崩溃。看来我正在达到某种极限,因为如果我使用 DoCheck<<<300, 32>>>(...);执行内核,它将起作用。需要明确的是,参数相同,只是块数不同。

    知道为什么一个导致视频驱动程序崩溃而另一个没有崩溃吗?失败的那个似乎仍在卡的块数限制内。

    更新
    有关我的系统配置的更多信息:
  • 视频卡:nVidia 8800GT
  • CUDA版本:1.1
  • 操作系统:Windows Server 2008 R2

  • 我还在具有以下配置的笔记本电脑上进行了尝试,但结果相同:
  • 视频卡:nVidia Quadro FX 880M
  • CUDA版本:1.2
  • 操作系统:Windows 7 64位
  • 最佳答案

    耗尽的资源就是时间。在当前所有的CUDA平台上,显示驱动程序都包含一个看门狗计时器,该计时器将杀死任何需要花费几秒钟才能执行的内核。在运行显示器的卡上运行代码受此限制。

    在您使用的WDDM Windows平台上,存在三种可能的解决方案/解决方法:

  • 获得Telsa卡并使用TCC驱动程序,从而完全消除了
  • 问题
  • 尝试修改注册表设置以增加计时器限制(有关TdrDelay注册表项,请单击Google以获取更多信息,但我不是Windows用户,因此不能更具体了)
  • 将您的内核代码修改为“可重入”,并在几次内核启动中而不是一次处理数据并行工作负载。内核启动开销并不大,并且根据所使用的算法,通常很容易实现在多个内核运行中处理工作负载。
  • 关于gpgpu - 似乎已达到CUDA限制,但是那是什么限制?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/22528879/

    25 4 0
    Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
    广告合作:1813099741@qq.com 6ren.com