c - _mm_storeu_si128 花费太多时间？-6ren

c - _mm_storeu_si128 花费太多时间？

转载作者：行者123 更新时间：2023-11-30 19:40:41

33

4

这是一个 C 函数，它获取 src 的权重值并将其存储到 dst 中。

static int _medium_c( DCTELEM * src, int index, int *dst )
{
    int i;
    //get weighted value
    for( i = 0; i < 16; i++ )
    {
        unsigned int threshold1 = threshold[index][i];//threshold contains constant value
        unsigned int threshold2 = ( threshold1<<1 );
        int level= src[i];
        if( ( ( unsigned )( level+threshold1 ) ) > threshold2 )
        {
            if( ( ( unsigned )( level+2*threshold1 ) ) > 2*threshold2 )
            {
                dst[i] = level * factor[i];
            }
            else
            {
                if( level>0 )
                {
                    dst[i] =  2*( level - ( int )threshold1 ) * factor[i];
                }
                else
                {
                    dst[i] =  2*( level + ( int )threshold1 ) * factor[i];
                }
            }
        }
    }
    return 0;
}

内在版本是:

int medium_intrinsic16( DCTELEM * src, int index, int* dst )
{
   int i, j = 0,  c[16], k = 0;
   for( j = 0;j < 2;j++ )
   {
        __m128i zero128 = _mm_setzero_si128();
        __m128i mask = _mm_set_epi8( 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80, 0x80,0x0d, 0x0c,0x09,0x08,0x05,0x04,0x01,0x00 );
        __m128i factor_a  = _mm_loadu_si128 ( (__m128i*)&factor[8*j] );
        factor_a = _mm_shuffle_epi8( factor_a, mask);
        __m128i factor_b  = _mm_loadu_si128 ( (__m128i*)&factor[8*j+4] );
        factor_b = _mm_shuffle_epi8( factor_b, mask);
        factor_a = _mm_unpacklo_epi64( factor_a, factor_b );

        __m128i  level_a  = _mm_loadu_si128( (__m128i*)&src[8*j] );

        __m128i  threshold1_a = _mm_loadu_si128((__m128i*)&threshold[index][8*j] );
        threshold1_a = _mm_shuffle_epi8( threshold1_a, mask);
        __m128i  threshold1_b = _mm_loadu_si128((__m128i*)&threshold[index][8*j+4] );
        threshold1_b = _mm_shuffle_epi8( threshold1_b, mask);
        threshold1_a = _mm_unpacklo_epi64( threshold1_a, threshold1_b );
        __m128i  threshold2_a = _mm_slli_epi32( threshold1_a, 1 );

        __m128i mif = _mm_cmpgt_epi16( level_a, zero128 );
        //keep
        __m128i m0 = _mm_sub_epi16( level_a, threshold1_a );//( level - ( int )threshold1 )
        __m128i m1 = _mm_add_epi16( level_a, threshold1_a );//( level + ( int )threshold1 )
        __m128i m2 = _mm_slli_epi16( factor_a, 1);

        __m128i m3 = _mm_mullo_epi16( m0, m2 );//2*( level - ( int )threshold1 ) * factor[i];
        __m128i m4 = _mm_mulhi_epi16( m0, m2 );//2*( level - ( int )threshold1 ) * factor[i];
        __m128i m5 = _mm_mullo_epi16( m1, m2 );//2*( level + ( int )threshold1 ) * factor[i];
        __m128i m6 = _mm_mulhi_epi16( m1, m2 );//2*( level + ( int )threshold1 ) * factor[i];

        //keep
        m3 = _mm_blendv_epi8( m5, m3, mif);
        m4 = _mm_blendv_epi8( m6, m4, mif);

        m0 = _mm_add_epi16( level_a, threshold2_a );//( level+2*threshold1 )
        m1 = _mm_slli_epi16( threshold2_a, 1 );//2*threshold2
        m2 = _mm_max_epu16( m0, m1 );
        mif = _mm_cmpeq_epi16( m2, m0 );
        m0 = _mm_mullo_epi16( level_a, factor_a );
        m1 = _mm_mulhi_epi16( level_a, factor_a );

        //keep
        m0 = _mm_blendv_epi8( m3, m0, mif );
        m1 = _mm_blendv_epi8( m4, m1, mif );

        m2  = _mm_add_epi16( level_a, threshold1_a );
        m3  = _mm_max_epu16( m2, threshold2_a );
        mif = _mm_cmpeq_epi16( m3, m2);

        m0 = _mm_and_si128( mif, m0 );
        m1 = _mm_and_si128( mif, m1 );

        m2 = _mm_unpacklo_epi16( m0, m1 );
        m3 = _mm_unpackhi_epi16( m0, m1 );
        _mm_storeu_si128((__m128i*)&dst[8*j] , m2 );//will run fast if removed 
        _mm_storeu_si128((__m128i*)&dst[8*j+4], m3 );//will run fast if removed      
    }  
    return 0;
}

内在版本并不比 C 版本更快。问题是，如果我删除 for 循环的最后两行，如代码中所示， _mm_storeu_si128((__m128i*)&dst[8*j] ， m2) 和 _mm_storeu_si128((__m128i*)&dst[8*j+4], m3)，内在版本的运行速度明显比 c 版本快(大约快 4 倍)。谁能解释为什么会发生这种情况？ _mm_storeu_si128() 花费这么多时间吗？谢谢

最佳答案

如果它的速度与 C 版本相同，那么您可能会遇到内存带宽瓶颈。在这种情况下，是的，存储到内存是算法中最昂贵的事情。

或者当结果没有存储在任何地方时，编译器可能会优化掉大量代码!您必须查看汇编以确保它只是省略了存储指令，而不是优化了大部分功能。

参见http://agner.org/optimize/ ，以及其他链接 https://stackoverflow.com/tags/x86/info (尤其是 Ulrich Drepper 关于缓存的论文。)

研究缓存阻塞，也称为循环平铺。

关于c - _mm_storeu_si128 花费太多时间？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/35081696/

33

4

0

文章推荐： c# - 如何按存储在字符串变量中的名称获取 XAML 元素？

文章推荐： c# - Random.Next() 的概率

文章推荐： C# 从包含数字和单词的字符串中获取数字序列？

文章推荐： c# - 将 byte[] 附加到 MemoryStream

php - (太多)太多 View 导致问题
我有一个使用 PHP 和 MariaDB 10.3 的小型大型数据库应用程序。我有大约 100 个表，大约有 3,000 个 View 。当超过 1,000 个 View 时，数据库架构就会崩溃并
regex - 解析 "\(|.*?)|)"- 太多)
parsing "\(|.*?)|)" - Too many )'s. 写这个的时候我收到这个错误... private static Regex resourceTextsREGEX = new
json - 为什么我生成的JSON的 “\\”太多？
我有一个Powershell脚本，它会生成一个包含数据的JSON文件。我对此文件有问题。它产生两倍的“\”! 你知道我该怎么解决吗？这是我的生成JSON文件的代码: [ordered]@{ pcn
Python:太多 join()？
我不确定为什么会收到此错误，我在不同点使用 str.join() 和 os.path.join()在脚本中，这是原因吗？使用os.path.join: from os.path import get
ios - b2Body 太多？
一段时间后，在我的应用程序中，似乎出现了一个大问题。有一个来自 Box2D 的 b2Bodys 的构建。我确实在我的应用程序中使用了一些 b2Body 来进行碰撞，但我会说屏幕上一次最多有 10 个。
javascript - 太多 "or"语句 (javascript)
我正在创建一个包含 6 种不同问题类型的简单数学程序。我想让程序随机显示6种类型中的一种，但有些问题应该出现得比较频繁。我使用加权数组，但从加权数组中选择问题类型后，如果不在 if 语句中使用 10
objective-c - NSView 太多？
我想构建一个包含大约 400 个单元的 Controller ，4 列，每列 100 个单元。每个单元格都必须被绘制并响应鼠标事件。这个会不会太重了？我应该为每个单元使用另一种方法，如 CALayer
Haskell 太多 where 子句，任何替代建议
我是 Haskell 的新手，在编写小程序时，我通常会使用太多的 where 子句来检查函数中的许多内容，因此编写 where 子句是一种很好的做法，或者还有其他好的替代方法吗？例如，在下面的代码中
firebase - 尝试按照部署指令部署多个功能导致错误，arg 太多
我有一个 index.js，其中包含一些导出，每个导出仅包含一个函数。我尝试一次部署其中的几个，CLI 给我以下错误； Error: Too many arguments. Run firebase
javascript - 正则表达式有(太多？)很多情况
我在正则表达式上挣扎了几个小时，似乎没有找到最后一点解决方案。我基本上是逐行解析 C 头文件以查找变量。以下是我可能遇到的需要传递正则表达式的行的情况: //#define variable_nam
PHP 和(太多)输入字段
我有一个 html 表单，大约有 1500 个输入字段*(文本或隐藏)。form.action 是 POST 并且每个输入字段都有一个唯一的名称(没有 name=foo[])。每当我在提交表单后尝试
.net - GAC 文件夹 - 太多？
我很困惑一劳永逸 VS 添加引用(/net 选项卡)说 dll 的 gac 在这里: 我发现这个包含 GAC 的文件夹:(附注:为什么有 3 个 Gac 类型？) 还有这个包含 GAC 的文件夹:
Java:实现可比较但条件 if 太多。我怎样才能避免它们？
我有一个实现Comparable的对象列表。我想对此列表进行排序，这就是我使用Comparable的原因。每个对象都有一个字段 weight，它由另外 3 个成员 int 变量组成。对于具有最大
c# - WCF channel 太多
在我们的系统中，有多个“站点”通过 WCF 相互通信。每个站点通过 NetTCP 绑定(bind)公开约 20 个接口(interface)。当一个站点使用对等站点的接口(interface)时，它
c++ - 太多 libboost_*.lib
我已经从 http://boost.teeks99.com/ 下载了 boost 1.58.0(预编译，x86，VC 12.0)并安装到C:\local\boost_1_58_0(我也试过自己用msv
mysql - COUNT UNION 太多
所以...我有一个查询，该查询返回在我的网站上使用相同的电子邮件地址、密码和其他信息创建的用户帐户(是的，实现不好，不要问)。它通过从另一个程序获取用户 ID 来实现这一点。我的 SQL 是 SEL
javascript - AngularJS 太多 Controller ？
我知道这是一个有点菜鸟的问题，但我只是想问一下，如果我有太多 Controller ，这是好事还是坏事。假设我有一个网络应用程序，它有大约 12 个 View 。每个 View 都有自己的 Contr
ios - 导航 Controller 太多？
我认为我的项目做了一些可笑的错误。我正在制作一个项目，基本上是一组 View Controller ，其中一些 Controller 上有视频，其他 Controller 上有图像。我创建了一个模型，
PHP - 太多 mysql_query ("SELECT .. ") ..?
嘿，我正在创建一个电子商店并显示类别树和所有产品及其多种价格变化，我制作了 150 多个 mysql_query("SELECT ..."); 在一页上查询。 (如果我计算“while”循环)。是不
JavaScript:太多 if-else 语句？
我在 JS 方面遇到了问题。我正在尝试制作按类型排序的三个成分列表(用于酿造药水)，所有这些都是标签内的复选框。您应该选择(选中)三个列表中每一个的一个元素才能酿造一剂药水。如果您选择正确的成分并按

首页

博学

6Ren·AI

商城

c - _mm_storeu_si128 花费太多时间？