c - 图像的快速转置和 C 中的 Sobel 滤波器优化 (SIMD)-6ren

c - 图像的快速转置和 C 中的 Sobel 滤波器优化 (SIMD)

转载作者：太空狗更新时间：2023-10-29 17:02:32

我想实现一个非常(非常)快的 Sobel operator对于光线追踪器，我和我的一个 friend 写道(来源可以找到 here )。以下是我到目前为止所了解的...

首先，假设图像是一张灰度图片，逐行存储在一个 8 位无符号整数数组中。

要编写真正的 Sobel 滤波器，我需要为每个像素计算 Gx 和 Gy。由于原点旁边的 6 个像素，这些数字中的每一个都是计算出来的。但是 SIMD 指令允许我处理 16 甚至 32 (AVX) 像素。希望运算符的内核具有一些不错的属性，以便我可以通过以下方式计算 Gy:

减去每个 i 和 i+2 行并将结果存储在某个其他图片(数组)的 i+1 行中
相加i，两次i+1和i+2列得到最终图片的i+1列

我会做同样的事情(但转置)来计算 Gx，然后将两张图片相加。

一些注意事项:

我不关心内存分配，因为一切都会在开始时分配。
我可以处理将值除以四的溢出和符号问题(感谢 _mm_srli_epi8) (uint8_t >> 2 - uint8_t >> 2) = int7_t //really store as int8_t<br/> int7_t + uint8_t << 1 >> 2 + int7_t = uint8_t <br/> //some precision is lost but I don't care

我面临的真正问题是从行到列。因为否则我无法将图片加载到 SIMD 寄存器中。我必须至少翻转图像三次，不是吗？

曾经的原图。然后我可以计算 Gx 和 Gy 的第一步，然后翻转生成的图片以计算第二步。

所以，这是我的问题:

这种实现方式是个好主意吗？
有没有比笨算法更快的转置数组的方法？ (我不这么认为)
瓶颈在哪里？ (任何猜测？:P)

最佳答案

我认为 transpose/2-pass 不利于优化 Sobel 算子代码。 Sobel 运算符不是计算函数，因此为转置/2 遍访问浪费内存访问对这种情况不利。我写了一些 Sobel Operator 测试代码，看看 SSE 能有多快。此代码不处理第一个和最后一个边缘像素，并使用 FPU 计算 sqrt() 值。

Sobel 运算符需要 14 个乘法运算符、1 个平方根运算符、11 个加法运算符、2 个最小/最大值运算符、12 个读访问运算符和 1 个写访问运算符。这意味着如果你优化代码，你可以在 20~30 个周期内处理一个组件。

FloatSobel() 函数花费了 2113044 个 CPU 周期来处理 256 * 256 图像处理 32.76 周期/组件。我会将此示例代码转换为 SSE。

void FPUSobel()
{
    BYTE* image_0 = g_image + g_image_width * 0;
    BYTE* image_1 = g_image + g_image_width * 1;
    BYTE* image_2 = g_image + g_image_width * 2;
    DWORD* screen = g_screen + g_screen_width*1;

    for(int y=1; y<g_image_height-1; ++y)
    {
        for(int x=1; x<g_image_width-1; ++x)
        {
            float gx =  image_0[x-1] * (+1.0f) + 
                        image_0[x+1] * (-1.0f) +
                        image_1[x-1] * (+2.0f) + 
                        image_1[x+1] * (-2.0f) +
                        image_2[x-1] * (+1.0f) + 
                        image_2[x+1] * (-1.0f);

            float gy =  image_0[x-1] * (+1.0f) + 
                        image_0[x+0] * (+2.0f) + 
                        image_0[x+1] * (+1.0f) +
                        image_2[x-1] * (-1.0f) + 
                        image_2[x+0] * (-2.0f) + 
                        image_2[x+1] * (-1.0f);


            int result = (int)min(255.0f, max(0.0f, sqrtf(gx * gx + gy * gy)));

            screen[x] = 0x01010101 * result;
        }
        image_0 += g_image_width;
        image_1 += g_image_width;
        image_2 += g_image_width;
        screen += g_screen_width;
    }
}

SseSobel() 函数需要 613220 个 CPU 周期来处理相同的 256*256 图像。它花费 9.51 个周期/组件，比 FPUSobel() 快 3.4 倍。有一些空间可以优化，但不会比 4 倍快，因为它使用 4 路 SIMD。

此函数使用 SoA 方法一次处理 4 个像素。在大多数阵列或图像数据中，SoA 优于 AoS，因为您必须转置/混洗才能使用 AoS。 SoA 将普通 C 代码转换为 SSE 代码要容易得多。

void SseSobel()
{
    BYTE* image_0 = g_image + g_image_width * 0;
    BYTE* image_1 = g_image + g_image_width * 1;
    BYTE* image_2 = g_image + g_image_width * 2;
    DWORD* screen = g_screen + g_screen_width*1;

    __m128 const_p_one = _mm_set1_ps(+1.0f);
    __m128 const_p_two = _mm_set1_ps(+2.0f);
    __m128 const_n_one = _mm_set1_ps(-1.0f);
    __m128 const_n_two = _mm_set1_ps(-2.0f);

    for(int y=1; y<g_image_height-1; ++y)
    {
        for(int x=1; x<g_image_width-1; x+=4)
        {
            // load 16 components. (0~6 will be used)
            __m128i current_0 = _mm_unpacklo_epi8(_mm_loadu_si128((__m128i*)(image_0+x-1)), _mm_setzero_si128());
            __m128i current_1 = _mm_unpacklo_epi8(_mm_loadu_si128((__m128i*)(image_1+x-1)), _mm_setzero_si128());
            __m128i current_2 = _mm_unpacklo_epi8(_mm_loadu_si128((__m128i*)(image_2+x-1)), _mm_setzero_si128());

            // image_00 = { image_0[x-1], image_0[x+0], image_0[x+1], image_0[x+2] }
            __m128 image_00 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(current_0, _mm_setzero_si128()));
            // image_01 = { image_0[x+0], image_0[x+1], image_0[x+2], image_0[x+3] }
            __m128 image_01 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(_mm_srli_si128(current_0, 2), _mm_setzero_si128()));
            // image_02 = { image_0[x+1], image_0[x+2], image_0[x+3], image_0[x+4] }
            __m128 image_02 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(_mm_srli_si128(current_0, 4), _mm_setzero_si128()));
            __m128 image_10 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(current_1, _mm_setzero_si128()));
            __m128 image_12 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(_mm_srli_si128(current_1, 4), _mm_setzero_si128()));
            __m128 image_20 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(current_2, _mm_setzero_si128()));
            __m128 image_21 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(_mm_srli_si128(current_2, 2), _mm_setzero_si128()));
            __m128 image_22 = _mm_cvtepi32_ps(_mm_unpacklo_epi16(_mm_srli_si128(current_2, 4), _mm_setzero_si128()));

            __m128 gx = _mm_add_ps( _mm_mul_ps(image_00,const_p_one),
                        _mm_add_ps( _mm_mul_ps(image_02,const_n_one),
                        _mm_add_ps( _mm_mul_ps(image_10,const_p_two),
                        _mm_add_ps( _mm_mul_ps(image_12,const_n_two),
                        _mm_add_ps( _mm_mul_ps(image_20,const_p_one),
                                    _mm_mul_ps(image_22,const_n_one))))));

            __m128 gy = _mm_add_ps( _mm_mul_ps(image_00,const_p_one), 
                        _mm_add_ps( _mm_mul_ps(image_01,const_p_two), 
                        _mm_add_ps( _mm_mul_ps(image_02,const_p_one),
                        _mm_add_ps( _mm_mul_ps(image_20,const_n_one), 
                        _mm_add_ps( _mm_mul_ps(image_21,const_n_two), 
                                    _mm_mul_ps(image_22,const_n_one))))));

            __m128 result = _mm_min_ps( _mm_set1_ps(255.0f), 
                            _mm_max_ps( _mm_set1_ps(0.0f), 
                                        _mm_sqrt_ps(_mm_add_ps(_mm_mul_ps(gx, gx), _mm_mul_ps(gy,gy))) ));

            __m128i pack_32 = _mm_cvtps_epi32(result); //R32,G32,B32,A32
            __m128i pack_16 = _mm_packs_epi32(pack_32, pack_32); //R16,G16,B16,A16,R16,G16,B16,A16
            __m128i pack_8 = _mm_packus_epi16(pack_16, pack_16); //RGBA,RGBA,RGBA,RGBA
            __m128i unpack_2 = _mm_unpacklo_epi8(pack_8, pack_8); //RRGG,BBAA,RRGG,BBAA
            __m128i unpack_4 = _mm_unpacklo_epi8(unpack_2, unpack_2); //RRRR,GGGG,BBBB,AAAA

            _mm_storeu_si128((__m128i*)(screen+x),unpack_4);
        }
        image_0 += g_image_width;
        image_1 += g_image_width;
        image_2 += g_image_width;
        screen += g_screen_width;
    }
}

关于c - 图像的快速转置和 C 中的 Sobel 滤波器优化 (SIMD)，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/18217269/

文章推荐： c - char数组前面的＆符号会影响scanf吗？合法吗？

文章推荐： Python 约束非线性优化

文章推荐： javascript - Python 'is' 与 JavaScript ===

文章推荐： python - Pandas `isin` 函数的更快替代方案

java - 如何在android中使用工具栏创 build 置
我有一个“设置首选项”屏幕。它有一个 ListPreference 和一个 CheckBoxPreference。当我选择 ListPreference 的一项时，我想更改应用程序的日期格式。另外，通
c++ - Qt如何创 build 置/配置窗口
我试图找到创 build 置/配置窗口的示例。单击菜单项中的“选项”操作可启动设置窗口。我想弄清楚如何从主窗口打开第二个窗口。以及新窗口如何将设置信息返回主窗口。尝试使用 QDialog 或一些继承的
c++ - 为 Qt 项目创 build 置
我在 Lnux 上有 Qt 应用程序。我想为此创建一个可执行文件/设置以便在 Windows 上分发它并且不需要安装 Qt。我通过包含所有 dll 为此创建了可执行文件但要运行它，用户需要进入文件夹。
Javascript - 创 build 置 div 宽度的动态类
我正在尝试创建一个有点动态的 html 类，它根据类末尾包含的数字设置宽度 %。注意:类名将始终以“gallery-item-”开头示例:div.gallery-item-20 = 20% 宽度我
android - 如何创 build 置 Activity 以从底部出现一半的屏幕？
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 6 年前。 Improve this qu
android - 如何在 Android 应用程序中创 build 置
在我的应用程序中，我想记住一些变量，例如，如果用户登录过一次，那么他们将在下次重新打开应用程序时登录，或者如果他们决定禁用某些提醒，应用程序可以检查该变量是否是错误的，将不再显示该提醒。理想情况下，这
java - 如何为 Java 应用程序创 build 置？
我在 Netbeans 中开发了一个应用程序，它连接到远程计算机的消息队列并发送消息。该应用程序还有其他功能。项目完成后，我清理并构建应用程序，然后 Netbeans 创建一个 jar 文件。但我的
.net - 为 Outlook 2010 加载项创 build 置
我创建了一个 Outlook 加载项，需要创建一个设置以使其可分发(我是新手，所以请原谅新手评论) Outlook -2010 Vs -2010 .Net 4.0 我读了一些地方，最简单的方法就是发
java - 在 java swing 应用程序中创 build 置
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: How to make installer pack of Java swing Application Proje
c# - 在 WPF 应用程序中创 build 置 View
这个问题肯定已经被很多人解决过很多次了，但是经过几个小时的研究，我仍然没有找到我要找的东西。我有一个 ExportSettings.settings 文件，其中包含一堆设置( bool 值、字符串、
linux - 为 Linux C 项目创 build 置
我想为我的项目创建一个安装程序，以便它可以安装在任何电脑上而无需安装头文件。我怎样才能做到这一点？最佳答案一般有两种分发程序的方法: 源代码分发(要构建的源代码)。最常见的方法是使用 GNU au
java - 如何为 Android 动态壁纸创 build 置 Activity
如何在这样的动态壁纸中创 build 置 Activity ？ Example Picture 我只用一个简单的文本构建了设置 Activity ，但遇到了一些问题。第一个问题是我不能为此 Activ
python - 如何为具有依赖项的 Python 项目创 build 置/安装程序？
我用 GUI 创建了一个简单的软件。它有几个源文件。我可以在我的编辑器中运行该项目。我认为它已经为 1.0 版本做好了准备。但我不知道如何为我的软件创 build 置/安装程序。源代码是python
android - 在 Android P 上创 build 置 Activity
我的 SettingsActivity当前扩展了 Android Studio 生成的类，AppCompatPreferenceActivity扩展 PreferenceActivity . Acti
c# - 创 build 置 (MSI) 以注册(regasm)程序集
我正在使用 .NET 为 IE 开发工具栏。目前，我使用 gacutil 插入我的 .NET 程序集，并使用 regasm 注册我的 COM 程序集。我想为项目创建一个设置 (MSI)，但我似乎无法
android - 创 build 置 Activity 时出现 boolean 参数问题
在为设置页面创建 Activity 后，我注意到 if (mCurrentValue !== value) 中的 mCurrentValue !== value 返回警告: Identity equa
c# - 在 visual studio 10 中创 build 置
我在 Visual Studio 10 中创建了一个项目，该项目使用 Mysql 数据库和 Crystalreports 以及它。但是我不知道如何进行自动安装 Mysql 和 Crystalrepo
c# - 在 C# 项目中使用 sqlite 数据库并创 build 置
我正在尝试在我的 C# 项目中使用 Sqlite 数据库，并且我在 IDE 中做得很好。我的问题是当我为我的项目制作安装包并安装它时，程序无法访问 sqlite 数据库。我也知道这是因为用户没有访问文
c# - 如何使用 Web 平台安装程序为 Web 应用程序创 build 置
我有一个大型 Web 应用程序(带有 11 子系统的 ErP)，我想使用 Microsoft WebPI 为它创建一个设置。目前，我们每周向客户发送一次应用程序(用于每周更新)。我们在此应用程序中
visual-studio - 在 visual studio 2008 中为项目解决方案创 build 置
所以我对工资单申请的最终查询是 - 如何为薪资申请创 build 置？我需要知道的一切- 如何将设置项目添加到我现有的解决方案如何将解决方案中的文件添加到安装项目中，以及添加哪些文件添加和在什么文

太空狗

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 图像的快速转置和 C 中的 Sobel 滤波器优化 (SIMD)