gpt4 book ai didi

c++ - GPU 加速 LK 金字塔中的窗口大小限制

转载 作者:行者123 更新时间:2023-11-28 00:19:18 25 4
gpt4 key购买 nike

我在实时馈送上执行图像稳定,以便在稳定的图像上运行一些视觉算法(强调“实时”)。目前,这个使用 LK 金字塔的 CPU 实现版本的过程几乎不够快,即使是在预先构建金字塔时(引用图像和“先前”特征只计算一次),但它需要缩放到处理大约四倍分辨率的图像,这使得它在当前实现中太慢了。我想我可能会尝试通过合并 GPU 来加快速度,因为 OpenCV 已经为支持 CUDA 的设备实现了相同的 LK 方法,即 cv::gpu::PyrLKOpticalFlow 类。我正在使用具有一组先前功能的::sparse 调用。

我的主要问题是窗口大小似乎有限制,我的太大了。该限制作为断言出现在 pyrlk.cpp 文件中:

CV_Assert(patch.x > 0 && patch.x < 6 && patch.y > 0 && patch.y < 6);

在正上方确定补丁尺寸的地方:

void calcPatchSize(cv::Size winSize, dim3& block, dim3& patch)
{
if (winSize.width > 32 && winSize.width > 2 * winSize.height)
{
block.x = deviceSupports(FEATURE_SET_COMPUTE_12) ? 32 : 16;
block.y = 8;
}
else
{
block.x = 16;
block.y = deviceSupports(FEATURE_SET_COMPUTE_12) ? 16 : 8;
}

patch.x = (winSize.width + block.x - 1) / block.x;
patch.y = (winSize.height + block.y - 1) / block.y;

block.z = patch.z = 1;
}

我的问题是我需要一个大约 80x80 像素的窗口大小,这是 A. 为什么我想使用 GPU 加速和 B. 为什么这在 OpenCV 中似乎不起作用。 :) 此外,对于分辨率较大的图像,此窗口大小将需要增大。

我不熟悉实际实现 GPU 加速,所以我想知道是否有人可以解释为什么 OpenCV 中存在这种限制,如果它是由硬件或 OpenCV 实现强加的真正限制,以及是否有工作的方法周围。这似乎是硬件限制,这似乎很奇怪,因为在这些情况下您会想要使用 GPU。我可以使用较小的搜索窗口获得合理的速度,但稳定性对于应用程序来说不够好。

我需要这么大的搜索窗口大小,因为我正在计算第一个(引用)帧的运动。运动是周期性的加上一些小的随机漂移,因此这种方法效果很好,但当匹配特征可能在 30-40 像素远(原始分辨率)时,需要更多的空间来搜索周期的峰值。

这是在 Linux 上使用 OpenCV 2.4.10 版,从源代码构建以支持 CUDA。

(这是从 http://answers.opencv.org/question/54579/window-size-limit-in-gpu-accelerated-lk-pyramid/ 重新发布的(稍作修改),但那里似乎没有太多事件,因此希望 SO 提供更好的讨论环境!)

最佳答案

补丁大小作为模板参数传递给 CUDA 内核。

请参阅 https://github.com/jet47/opencv/blob/master/modules/cudaoptflow/src/cuda/pyrlk.cu#L493 处的调用代码:

static const func_t funcs[5][5] =
{
{sparse_caller<1, 1, 1>, sparse_caller<1, 2, 1>, sparse_caller<1, 3, 1>, sparse_caller<1, 4, 1>, sparse_caller<1, 5, 1>},
{sparse_caller<1, 1, 2>, sparse_caller<1, 2, 2>, sparse_caller<1, 3, 2>, sparse_caller<1, 4, 2>, sparse_caller<1, 5, 2>},
{sparse_caller<1, 1, 3>, sparse_caller<1, 2, 3>, sparse_caller<1, 3, 3>, sparse_caller<1, 4, 3>, sparse_caller<1, 5, 3>},
{sparse_caller<1, 1, 4>, sparse_caller<1, 2, 4>, sparse_caller<1, 3, 4>, sparse_caller<1, 4, 4>, sparse_caller<1, 5, 4>},
{sparse_caller<1, 1, 5>, sparse_caller<1, 2, 5>, sparse_caller<1, 3, 5>, sparse_caller<1, 4, 5>, sparse_caller<1, 5, 5>}
};

其中 sparse_caller 声明为:

template <int cn, int PATCH_X, int PATCH_Y>
void sparse_caller(int rows, int cols, const float2* prevPts, float2* nextPts,
uchar* status, float* err, int ptcount,
int level, dim3 block, cudaStream_t stream)

补丁大小的限制是为了减少模板实例化的数量。您可以通过修改此代码并添加更多实例来根据需要增加此限制。

关于c++ - GPU 加速 LK 金字塔中的窗口大小限制,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/28389440/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com