- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在开发一个基于 ROS 的管道,其主要功能是订阅图像主题并持续执行特征检测、匹配等功能。为了使这个管道更快,我正在尝试使用基于 CUDA 的检测和匹配模块作为我的包的一部分。在这个问题的上下文中,我假设一个简单的管道,我在其中订阅了一个图像主题,并且在每次图像可用时调用的订阅者回调中,调用了不同类的两个成员函数:一个用于检测,另一个匹配,每个都包含自己的 CUDA 内核。有点类似于在循环中执行这两个函数。
第一个函数获取图像数据并计算特征关键点和描述符,并将它们返回给主机。然后我将这些描述符复制回 GPU 内存,我需要将它们与另一组属于引用图像的描述符相匹配。
例如,这是独立匹配函数的样子:
// Detection module returns a struct featureData, containing keypoints and descriptors
// in featureData.kps and featureData.desc
uint64_t* d_desc;
cudaMalloc(&d_desc, 64 * featureData.kps.size());
cudaMemcpy(d_desc, &featureData., 64 * (featureData.kps.size()), cudaMemcpyHostToDevice);
cudaDeviceSetCacheConfig(cudaFuncCachePreferL1);
cudaDeviceSetSharedMemConfig(cudaSharedMemBankSizeEightByte);
// Create texture object for descriptors
struct cudaResourceDesc resDesc;
memset(&resDesc, 0, sizeof(resDesc));
resDesc.resType = cudaResourceTypeLinear;
resDesc.res.linear.devPtr = d_desc;
resDesc.res.linear.desc.f = cudaChannelFormatKindUnsigned;
resDesc.res.linear.desc.x = 32;
resDesc.res.linear.desc.y = 32;
resDesc.res.linear.sizeInBytes = 64 * featureData.kps.size();
struct cudaTextureDesc texDesc;
memset(&texDesc, 0, sizeof(texDesc));
texDesc.addressMode[0] = cudaAddressModeBorder;
texDesc.addressMode[1] = cudaAddressModeBorder;
texDesc.filterMode = cudaFilterModePoint;
texDesc.readMode = cudaReadModeElementType;
texDesc.normalizedCoords = 0;
cudaTextureObject_t tex_q = 0;
cudaCreateTextureObject(&tex_q, &resDesc, &texDesc, nullptr);
// Allocate space for match results
int* d_matches;
cudaMalloc(&d_matches, 4 * featureData.kps.size());
// Launch the matching kernel
CUDAmatch(d_descRef, static_cast<int>(refData.kps.size()), tex_q, static_cast<int>(featureData.kps.size()), d_matches, threshold);
// d_descRef is memory pointed to by a uint64_t* for the reference descriptors.
在这种情况下,我有几个问题,因为这是我第一次涉足基于 GPU 的开发。
cudaMalloc()
)?描述符的长度将根据检测到的特征数量而变化。或者是否有更有效的方法来仅分配一次内存并重用它?cudaResourceDesc
和cudaTextureDesc
等对象,它们在每次执行结束时都会超出范围,因此应该销毁.我应该以任何其他特定方式处理它们吗?cudaDeviceSynchronize()
。我说得对吗?最佳答案
Should I free the device memory pointers for these after performing matching every time and reallocate (cudaMalloc()) in the next callback?
可能不会。这似乎是不必要且耗时的。
Or is there a more efficient way to allocate memory only once and reuse it?
可能吧。例如,您可以确定可能需要的最大大小,为此进行分配,然后将指向它的指针传递到您的事件处理循环中,然后重新使用分配。
The detection and matching functions also make use of objects such as cudaResourceDesc and cudaTextureDesc, which will go out of scope at the end of every execution and thus should be destroyed. Should I handle them in any other specific way?
同样,您可以在更高的范围内创建它们,并将对它们的引用传递到您的事件处理系统中。但是,我认为这里的主要时间消费者将是填充纹理的数据拷贝,以及纹理的绑定(bind)。无论如何(大概)这些都必须重复。但是,如果您有纹理对象的后备存储的基础分配,那么您可能不需要为此重新分配,请参阅之前的评论。
I assume I need cudaDeviceSynchronize() after executing each of these two functions. Am I correct?
对我来说,它的必要性并不明显。你没有展示一个完整的例子,但是如果在你的函数结束时,有一个从设备到主机的数据拷贝,那可能就足够了。 cudaMemcpy
是一个阻塞函数。如果您在 TX1/TX2 等物理/逻辑统一内存情况下操作,那么是的,您可能需要一个同步点来确保数据在主机代码中使用之前有效。
Can I safely leave the "reference" descriptors in GPU memory and only update them when I need to?
我不知道为什么。由 cudaMalloc
创建的分配不会“超出范围”,直到应用程序终止或使用 cudaFree
显式释放。如果您将数据复制到这样的分配,它应该在您的应用程序期间保持不变,除非您以某种方式覆盖它(或释放底层分配)。
关于c++ - 在 ROS 上下文中使用基于 CUDA 的函数的正确方法,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/50127017/
C语言sscanf()函数:从字符串中读取指定格式的数据 头文件: ?
最近,我有一个关于工作预评估的问题,即使查询了每个功能的工作原理,我也不知道如何解决。这是一个伪代码。 下面是一个名为foo()的函数,该函数将被传递一个值并返回一个值。如果将以下值传递给foo函数,
CStr 函数 返回表达式,该表达式已被转换为 String 子类型的 Variant。 CStr(expression) expression 参数是任意有效的表达式。 说明 通常,可以
CSng 函数 返回表达式,该表达式已被转换为 Single 子类型的 Variant。 CSng(expression) expression 参数是任意有效的表达式。 说明 通常,可
CreateObject 函数 创建并返回对 Automation 对象的引用。 CreateObject(servername.typename [, location]) 参数 serv
Cos 函数 返回某个角的余弦值。 Cos(number) number 参数可以是任何将某个角表示为弧度的有效数值表达式。 说明 Cos 函数取某个角并返回直角三角形两边的比值。此比值是
CLng 函数 返回表达式,此表达式已被转换为 Long 子类型的 Variant。 CLng(expression) expression 参数是任意有效的表达式。 说明 通常,您可以使
CInt 函数 返回表达式,此表达式已被转换为 Integer 子类型的 Variant。 CInt(expression) expression 参数是任意有效的表达式。 说明 通常,可
Chr 函数 返回与指定的 ANSI 字符代码相对应的字符。 Chr(charcode) charcode 参数是可以标识字符的数字。 说明 从 0 到 31 的数字表示标准的不可打印的
CDbl 函数 返回表达式,此表达式已被转换为 Double 子类型的 Variant。 CDbl(expression) expression 参数是任意有效的表达式。 说明 通常,您可
CDate 函数 返回表达式,此表达式已被转换为 Date 子类型的 Variant。 CDate(date) date 参数是任意有效的日期表达式。 说明 IsDate 函数用于判断 d
CCur 函数 返回表达式,此表达式已被转换为 Currency 子类型的 Variant。 CCur(expression) expression 参数是任意有效的表达式。 说明 通常,
CByte 函数 返回表达式,此表达式已被转换为 Byte 子类型的 Variant。 CByte(expression) expression 参数是任意有效的表达式。 说明 通常,可以
CBool 函数 返回表达式,此表达式已转换为 Boolean 子类型的 Variant。 CBool(expression) expression 是任意有效的表达式。 说明 如果 ex
Atn 函数 返回数值的反正切值。 Atn(number) number 参数可以是任意有效的数值表达式。 说明 Atn 函数计算直角三角形两个边的比值 (number) 并返回对应角的弧
Asc 函数 返回与字符串的第一个字母对应的 ANSI 字符代码。 Asc(string) string 参数是任意有效的字符串表达式。如果 string 参数未包含字符,则将发生运行时错误。
Array 函数 返回包含数组的 Variant。 Array(arglist) arglist 参数是赋给包含在 Variant 中的数组元素的值的列表(用逗号分隔)。如果没有指定此参数,则
Abs 函数 返回数字的绝对值。 Abs(number) number 参数可以是任意有效的数值表达式。如果 number 包含 Null,则返回 Null;如果是未初始化变量,则返回 0。
FormatPercent 函数 返回表达式,此表达式已被格式化为尾随有 % 符号的百分比(乘以 100 )。 FormatPercent(expression[,NumDigitsAfterD
FormatNumber 函数 返回表达式,此表达式已被格式化为数值。 FormatNumber( expression [,NumDigitsAfterDecimal [,Inc
我是一名优秀的程序员,十分优秀!