opencv - 针对 ARM 优化的 FAST 计算-6ren

opencv - 针对 ARM 优化的 FAST 计算

转载作者：太空宇宙更新时间：2023-11-03 21:43:54

我想通过使用 arm neon 库在 ARM cortex a8 上实现我发现的关于 5ms ORB 特征计算的论文。但我已经在为 FAST 特征检测而苦苦挣扎。所以我尝试实现的论文你可以找到 here .所以首先我不确定 Bright 和 Dark 约束。因此，根据我的理解，如果中心像素周围有 9 个较暗或 9 个较亮的像素，您必须检查 FAST。所以我检查两者。但是现在我遇到了一个问题，如果没有最终的移位操作来计算它是否是一个角，那么我的实现平均已经花费了 3 倍的时间，然后是 opencv 的整个过程的平均计算。到目前为止，这是我的代码，也许有人可以指出我可以对其进行的一些优化。

        //detect with opncv
        Clock::time_point t0 = Clock::now();
        detectors[y]->detect(img, ocv_kps);
        Clock::time_point t1 = Clock::now();

        vector<Point2f> my_kps;
        //threshhold for FAST
        const uchar th = 8;

        int b_cnt = 0;
        int d_cnt = 0;
        //array with four possible corners to be processed in parallel
        uint32_t id_arr[4];
        uint32_t ib_arr[4];

        Clock::time_point t01 = Clock::now();
        for (int i = 3; i < img.rows - 3; i++) {
            //get pointer to seven Image rows three above and three below center and center itself
            const uchar* Mt3 = img.ptr<uchar>(i - 3);
            const uchar* Mt2 = img.ptr<uchar>(i - 2);
            const uchar* Mt1 = img.ptr<uchar>(i - 1);
            const uchar* Mc = img.ptr<uchar>(i);
            const uchar* Mb1 = img.ptr<uchar>(i + 1);
            const uchar* Mb2 = img.ptr<uchar>(i + 2);
            const uchar* Mb3 = img.ptr<uchar>(i + 3);
            for (int j = 3; j < img.cols - 3; j++) {
                const uchar j3 = j + 3;
                const uchar j2 = j + 2;
                const uchar j1 = j + 1;
                const uchar jn3 = j - 3;
                const uchar jn2 = j - 2;
                const uchar jn1 = j - 1;

                 //image values for center left right top and bottom intensity of pixel
                const uchar c = Mc[j];
                const uchar l = Mc[jn3];
                const uchar r = Mc[j3];
                const uchar t = Mt3[j];
                const uchar b = Mb3[j];

                //threshold for bright FAST constraint
                const uchar thb = c + th;

                //bools for bright constraint
                const bool cbt = t > thb;
                const bool cbb = b > thb;
                const bool cbl = l > thb;
                const bool cbr = r > thb;

                 uchar mt3;
                 uchar mt3n;
                 uchar mt2;
                 uchar mt2n;
                 uchar mt1;
                 uchar mt1n;
                 uchar mb3;
                 uchar mb3n;
                 uchar mb2;
                 uchar mb2n;
                 uchar mb1;
                 uchar mb1n;
                bool bc = false;
                //pre test do we have at least two points which fulfill bright constraint
                if ((cbl && cbt) || (cbt && cbr) || (cbr && cbb)
                        || (cbb && cbl)) {
                    bc = true;
                    //get rest of image intensity values of circle
                    mt3 = Mt3[j1];
                    mt3n = Mt3[jn1];
                    mt2 = Mt2[j2];
                    mt2n = Mt2[jn2];
                    mt1 = Mt1[j3];
                    mt1n = Mt1[jn3];
                    mb3 = Mb3[j1];
                    mb3n = Mb3[jn1];
                    mb2 = Mb2[j2];
                    mb2n = Mb2[jn2];
                    mb1 = Mb1[j3];
                    mb1n = Mb1[jn3];

                    //values for bright constrain
                    ib_arr[b_cnt] = cbt | ((mt3) > thb) << 1
                            | ((mt2) > thb) << 2 | ((mt1) > thb) << 3
                            | (cbr << 4) | ((mb1) > thb) << 5
                            | ((mb2) > thb) << 6 | ((mb3) > thb) << 7
                            | cbb << 8 | ((mb3n) > thb) << 9
                            | ((mb2n) > thb) << 10 | ((mb1n) > thb) << 11
                            | (cbl) << 12 | ((mt1n) > thb) << 13
                            | ((mt2n) > thb) << 14 | ((mt3n) > thb) << 15
                            | (cbt) << 16 | ((mt3) > thb) << 17
                            | ((mt2) > thb) << 18 | ((mt1) > thb) << 19
                            | (cbr) << 20 | ((mb1) > thb) << 21
                            | ((mb2) > thb) << 22 | ((mb3) > thb) << 23;
                    b_cnt++;
                    //if we have four possible corners in array check if they are corners
                    if (b_cnt == 4) {
                        uint32x2x4_t IB = vld4_u32(ib_arr);
                        /*
                         * here the actual shift operation would take place
                         */
                        b_cnt = 0;
                    }
                }

                //threshold for dark constraint
                const uchar thd = c - th;
                //bools for dark constraint
                const bool cdl = l < thd;
                const bool cdr = r < thd;
                const bool cdt = t < thd;
                const bool cdb = b < thd;
                //pre test do we have at least two points which fulfill dark constraint
                if ((cdl && cdt) || (cdt && cdr) || (cdr && cdb)
                        || (cdb && cdl)) {
                    //if bright pre test failed intensity values are not initialised
                    if (!bc) {
                        //get rest of image intensity values of circle
                        mt3 = Mt3[j1];
                        mt3n = Mt3[jn1];
                        mt2 = Mt2[j2];
                        mt2n = Mt2[jn2];
                        mt1 = Mt1[j3];
                        mt1n = Mt1[jn3];
                        mb3 = Mb3[j1];
                        mb3n = Mb3[jn1];
                        mb2 = Mb2[j2];
                        mb2n = Mb2[jn2];
                        mb1 = Mb1[j3];
                        mb1n = Mb1[jn3];
                    }
                    //bool values for dark constrain
                    id_arr[d_cnt] = cdt | ((mt3) < thd) << 1
                            | ((mt2) < thd) << 2 | ((mt1) < thd) << 3
                            | (cdr) << 4 | ((mb1) < thd) << 5
                            | ((mb2) < thd) << 6 | ((mb3) < thd) << 7
                            | (cdb) << 8 | ((mb3n) < thd) << 9
                            | ((mb2n) < thd) << 10 | ((mb1n) < thd) << 11
                            | (cdl) << 12 | ((mt1n) < thd) << 13
                            | ((mt2n) < thd) << 14 | ((mt3n) < thd) << 15
                            | (cdt) << 16 | ((mt3) < thd) << 17
                            | ((mt2) < thd) << 18 | ((mt1) < thd) << 19
                            | (cdr) << 20 | ((mb1) < thd) << 21
                            | ((mb2) < thd) << 22 | ((mb3) < thd) << 23;
                    d_cnt++;
                    //if we have four possible corners in array check if they are corners
                    if (d_cnt == 4) {
                        uint32x2x4_t IA = vld4_u32(id_arr);
                        /*
                         * here the actual shift operation would take place
                         */
                        d_cnt = 0;
                    }
                    int h = cdt;

                }
            }
        }
        Clock::time_point t11 = Clock::now();
        cout << "my algorithm found " << my_kps.size()
                << " and ocv found " << ocv_kps.size() <<  endl;

        microseconds ms1 = std::chrono::duration_cast < microseconds
                > (t1 - t0);
        microseconds ms2 = std::chrono::duration_cast < microseconds
                > (t11 - t01);

        rs.Push((double) ms2.count());
        cout << "my algorithm duration " << ms2.count()
                << " and ocv duration is " << ms1.count()  << endl;

最佳答案

我有一个 ORB 提取器，它在树莓派上以 30fps 的速度运行。

https://github.com/0xfaded/pislam

优化真的是一门魔法，更糟糕的是，ARM 从未发布过 a53 的优化指南。我们拥有的最好的是 a57，它可能具有类似的 NEON 单元。

我真的不能在这里提供完整的答案，但我会分享一些我的过程。

我的 FAST 提取器的第一部分加载测试像素环并将它们转换为 16 位向量，就像您的代码所做的那样。我没有直接编写 asm，而是使用了 gcc 内在函数。不过，我确保 gcc:

没有将任何寄存器溢出到堆栈
为每次比较发出最少数量的指令

您会注意到第一个比较没有用掩码隔离它的位，掩码应该是 0x80。这释放了一个寄存器，否则它会保持一个常量，并且它给 gcc 提供了足够的回旋余地，不会溢出寄存器。

您还会注意到一些相当可怕的内在用法:

  d0 = vbslq_u8(vdupq_n_u8(0x40u), vcgeq_u8(test, dark), d0);
  l0 = vbslq_u8(vdupq_n_u8(0x40u), vcleq_u8(test, light), l0);

这相当于

  d0 |= test >= dark & 0x40;
  l0 |= test >= light & 0x40;

Gcc 会愉快地编译后者，但会发出 1.5 倍的指令。

第二部分是在 16 位向量上进行 FAST-9 测试。下面编译为 16 条指令，但我花了将近一个月的时间断断续续地想出来。

  uint8x16_t t0 = vtstq_u8(d0, d1);
  uint8x16_t t1 = vtstq_u8(d0, d1);

  t0 = vbslq_u8(t0, l0, d0);
  t1 = vbslq_u8(t1, l1, d1);

  uint8x16_t cntLo = vclzq_u8(t0);
  uint8x16_t testLo = t1 << (cntLo - 1);
  asm("vceq.u8  %q0, %q0, #0" : [val] "+w" (testLo));

  uint8x16_t cntHi = vclzq_u8(t1);
  uint8x16_t testHi = t0 << (cntHi - 1);
  asm("vceq.u8  %q0, %q0, #0" : [val] "+w" (testHi));

  uint8x16_t result = (cntLo & testLo) | (cntHi & testHi);
  result = vtstq_u8(result, result);

令人恼火的是，gcc 不会将 testLo == 0 编译为 vceq.u8 %q0, %q0, #0，这是用于与常数零。我最终手动插入了这些，从而省去了另外几条指令。

希望能提供一些见解。 Fast.h

关于opencv - 针对 ARM 优化的 FAST 计算，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/40147136/

文章推荐： math - float 学有问题吗？

文章推荐： python - 运行代码两次时 JPype 将无法正确编译

opencv - 如何删除 openCV
我正在尝试从我的系统中完全删除 opencv。我试图学习 ROS，而在教程中我遇到了一个问题。创建空工作区后，我调用catkin_make 它给出了一个常见错误，我在 answers.ros 中搜索并
opencv - opencv warpaffine崩溃
我在尝试逐步转移对warpAffine的调用时遇到崩溃(不是异常): void rotateImage( const Mat& source, double degree, Mat& output )
opencv - opencv gpu中的错误处理
如何处理opencv gpu异常？是否有用于opencvgpu异常处理的特定错误代码集api？我尝试了很多搜索，但只有1个错误代码，即CV_GpuNotSupported。请帮帮我。最佳答案虽
opencv - [OpenCV]如何将轮廓固定为矩形？
笔记我是 OpenCV(或计算机视觉)的新手，所以告诉我搜索查询会很有帮助! 我想问什么我想编写一个从图片中提取名片的程序。我能够提取粗略的轮廓，但反射光会变成噪点，我无法提取准确的轮廓。请告诉
opencv - OpenCV 2二进制转换
我想根据像素的某个阈值将Mono16类型的Mat转换为二进制图像。我尝试使用以下内容: 阈值(img，ret，0.1，1，CV_THRESH_BINARY); 尝试编译时，出现make错误，提示: 错
opencv - OpenCV GPU卷积功能和缺少的边框
我对使用GPU加速的OpenCV中的卷积函数有疑问。使用GPU的卷积速度大约快3.5 运行时: convolve(src_32F, kernel, cresult, false, cbuffer);
opencv - OpenCV-CirclesGridFinder的文档
我正在尝试使用非对称圆圈网格执行相机校准。我通常找不到适合CirclesGridFinder的文档，尤其是findHoles()函数的文档。如果您有关于此功能如何工作以及其参数含义的信息，将不胜感
opencv - 投影仪和 OpenCV
在计算机上绘图和在 OpenCV 的投影仪上投影之间有什么区别吗？一种选择是投影显示所有内容的计算机屏幕。但也许也有这样的选择，即在投影仪上精确地绘制和投影图像，仅使用计算机作为计算机器。如果我能做
opencv - 如何停止for循环(OpenCV)
我将Processing(processing.org)用于需要人脸跟踪的项目。现在的问题是由于for循环，程序将耗尽内存。我想停止循环或至少解决内存不足的问题。这是代码。 import hyperm
opencv - cvSobel问题-opencv
我有下面的代码: // Image Processing.cpp : Defines the entry point for the console application. // //Save
opencv - opencv，模板匹配
我正在为某些项目使用opencv。并有应解决的任务。任务很简单。我有一张主图片，并且有一个模板，而不是将主图片与模板进行比较。我使用matchTemplate()函数。我只是好奇一下。在文档中，我
opencv - 尝试创建我的Haartraining OpenCV
我正在尝试使用以下命令创建级联分类器: haartraining -data haarcascade -vec samples.vec -bg negatives.dat -nstages 20 -n
opencv - OpenCV:检索轮廓中心的颜色
我试图使用OpenCV检测黑色图像中一组形状的颜色，为此我使用了Canny检测。但是，颜色输出总是返回为黑色。 std::vector > Asteroids::DetectPoints(const
opencv - OpenCV:如何使用cvSobel？
我正在尝试使用OpenCv 2.4.5从边缘查找渐变方向，但是我在使用cvSobel()时遇到问题，以下是错误消息和我的代码。我在某处读到它可能是由于浮点(??)之间的转换，但我不知道如何解决它。有帮
opencv - OpenCV:如何通过不同的角度使用真实场景的图像比较特征检测器和提取器的性能？
我正在尝试构建循环关闭算法，但是在开始开发之前，我想测试哪种功能描述符在真实数据集上效果更好。我有两个在两个方向拍摄的走廊图像，一个进入房间，另一个离开同一个房间。因此它们代表相同的场景，但具有2个
opencv - 比较没有白色的直方图包括 OpenCV
有没有一种方法可以比较直方图，但例如要排除白色，因此白色不会影响比较。最佳答案白色像素有饱和度 , S = 0 .因此，在创建直方图时很容易从计数中删除白色像素。请执行下列操作: 从 BGR 转
opencv - OpenCV-饱和像素
就像本主题的标题一样，如何在OpenCV中确定图像的特定像素(灰度或彩色)是否饱和(例如，亮度过高)？先感谢您。最佳答案根据定义，饱和像素是指与强度(即灰度值或颜色分量之一)等于255相关联的像
opencv - OpenCV-反卷积中的边界伪像
我是OpenCV的新用户，正在从事大学项目。程序会获取输入图像，对其进行综合模糊处理，然后对其进行模糊处理。当对合成模糊图像进行反卷积时，会生成边界伪像，因为...好吧，到目前为止，我还没有实现边界条
opencv - OpenCv detectMultiScale尺度搜索算法
我想知道OpenCV是haar特征还是lbp是在多尺度搜索过程中缩放图像还是像论文中提到的那样缩放特征本身？编辑:事实证明，检测器可以缩放图像，而不是功能。有人知道为什么吗？通过缩放功能可以更快。
opencv - OpenCV SVM培训
我在openCv中使用SVM.train命令(已定义了适当的参数)。接下来，我要使用我的算法进行分类，而不是使用svm.predict。可能吗？我可以访问训练时生成的支持 vector 吗？如果是这

太空宇宙

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

opencv - 针对 ARM 优化的 FAST 计算