c - SSE 字节和半字交换-6ren

c - SSE 字节和半字交换

转载作者：太空宇宙更新时间：2023-11-04 05:54:17

25

4

我想使用 SSE 内在函数翻译这段代码。

for (uint32_t i = 0; i < length; i += 4, src += 4, dest += 4)
{
    uint32_t value = *(uint32_t*)src;
    *(uint32_t*)dest = ((value >> 16) & 0xFFFF) | (value << 16);
}

有人知道执行 16 位字交换的内在函数吗？

最佳答案

pshufb (SSSE3) 应该比 2 个类次和一个 OR 更快。此外，对 shuffle 掩码的轻微修改将启用字节序转换，而不仅仅是单词交换。

窃取了 Paul R 的函数结构，只是替换了 vector 内在函数:

void word_swapping_ssse3(uint32_t* dest, const uint32_t* src, size_t count)
{
    size_t i;
    __m128i shufmask =  _mm_set_epi8(13,12, 15,14,  9,8, 11,10,  5,4, 7,6,  1,0, 3,2);
    // _mm_set args go in big-endian order for some reason.                       

    for (i = 0; i + 4 <= count; i += 4)
    {
        __m128i s = _mm_loadu_si128((__m128i*)&src[i]);
        __m128i d = _mm_shuffle_epi8(s, shufmask);
        _mm_storeu_si128((__m128i*)&dest[i], d);
    }
    for ( ; i < count; ++i) // handle residual elements
    {
        uint32_t w = src[i];
        w = (w >> 16) | (w << 16);
        dest[i] = w;
    }
}

pshufb 可以有一个内存操作数，但它必须是洗牌掩码，而不是要洗牌的数据。所以你不能将它用作随机加载。 :/

gcc 不会为循环生成很好的代码。主循环是

# src: r8.  dest: rcx.  count: rax.  shufmask: xmm1
.L16:
        movq    %r9, %rax
.L3:  # first-iteration entry point
        movdqu  (%r8), %xmm0
        leaq    4(%rax), %r9
        addq    $16, %r8
        addq    $16, %rcx
        pshufb  %xmm1, %xmm0
        movups  %xmm0, -16(%rcx)
        cmpq    %rdx, %r9
        jbe     .L16

由于所有循环开销，并且需要单独的加载和存储指令，吞吐量仅为每 2 个周期 1 次洗牌。 (8 微指令，因为 cmp 宏与 jbe 融合)。

更快的循环是

  shl $2, %rax  # uint count  ->  byte count
  # check for %rax less than 16 and skip the vector loop
  # cmp / jsomething
  add %rax, %r8  # set up pointers to the end of the array
  add %rax, %rcx
  neg %rax       # and count upwards toward zero
.loop:
  movdqu (%r8, %rax), %xmm0
  pshufb  %xmm1, %xmm0
  movups  %xmm0, (%rcx, %rax)  # IDK why gcc chooses movups for stores.  Shorter encoding?
  add $16, %rax
  jl .loop
  # ...
  # scalar cleanup

movdqu 加载可以与复杂的寻址模式微融合，这与 vector ALU 操作不同，所以我相信除了存储之外所有这些指令都是单 uop。

由于 add 可以与 jl 微融合，因此每次迭代应该运行 1 个周期并进行一些展开。所以这个循环总共有 5 个微指令。其中 3 个是加载/存储操作，它们具有专用端口。瓶颈是:pshufb 只能在一个执行端口上运行(Haswell(SnB/IvB 可以 pshufb 在端口 1 和 5 上运行))。每个周期一个商店(所有微架构)。最后，英特尔 CPU 的每个时钟 4 个融合域微指令限制，这应该是可以达到的，除非在 Nehalem 和更高版本(微指令循环缓冲区)上出现缓存未命中。

展开将使每 16B 的总融合域 uops 低于 4。递增指针，而不是使用复杂的寻址模式，将使存储微融合。 (减少循环开销总是好的:让重新排序缓冲区充满 future 的迭代意味着当 CPU 在循环结束时遇到错误预测并返回到其他代码时，CPU 有事情要做。)

正如 Elalfer 正确建议的那样，这几乎就是展开内在循环所获得的结果。使用 gcc，尝试 -funroll-loops 如果这不会使代码膨胀太多。

顺便说一句，在加载或存储时与其他代码混合进行字节交换可能比将缓冲区转换为单独的操作更好。

关于c - SSE 字节和半字交换，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/31203907/

25

4

0

文章推荐： c - 为什么这个函数返回 0 而不是 double？

文章推荐： Linux:从 .bin 安装后软件包安装在哪里

文章推荐： javascript - 基于vue-route-link active的动态颜色

clojure - 交换!改变和相似
我在理解这些函数如何更新底层引用、原子等时遇到问题。文档说:(应用当前身份值参数) (def one (atom 0)) (swap! one inc) ;; => 1 所以我想知道它是如何“扩展到
Clojurescript 交换!和多个关联
尝试让一段代码看起来更好。我在 Clojurescript 中有以下内容: (swap! app-state assoc-in [:lastresults] []) (swap! app-state
java - 交换/重新排序记录
我在数据库中有带有排序顺序号的记录。现在我想创建一个带有向上和向下按钮的用户界面来重新排序它们。制作两个 functionsUp(record) 和 functionDown(record) 的最佳算
jquery div 交换
如何才能让第二次点击时返回？我想我必须以某种方式找到活跃的，但不确定。 $("#test").click(function(){ $("#dsa").fadeOut() $("#asd
c - 反转字符串(交换)
我需要有关这次考试的帮助。我需要反转输入字符串。 int main(void) { char str[30]; int strlen; int i=0; int count=0;int
C 指针 - 交换
我正在用 C 语言玩指针...我尝试编写一个接收指向值的指针、检索指针的指针并交换指向值的指针的交换，而不是接收指向值的指针和交换值的常规交换。这是代码... 互换功能: void swap(voi
JavaScript 切换/交换
如何在 javascript 中切换值？例如，如果 x = apple，则函数应返回 x = orange。如果 x = orange，则函数应返回 x = apple。不确定，这里有什么用，切换或交
C++ 交换 unique_ptr's
刚接触这类东西，可能做错了什么，但是- 我有 3 个成员 std::unique_ptr currentWeapon; std::unique_ptr weaponSlotOne; std::uniq
javascript - 如何对不可变映射内的项目进行排序(交换)？
我想在 Map 内的不可变列表内交换项目，示例: const Map = Immutable.fromJS({ name:'lolo', ids:[3,4,5] }); 我正在尝试使用
c - 交换/交换指针时的未定义行为
我创建了动态数组。如果具有某些值，则填充。打印它。但是交换/交换指针后(任务是在特定条件下交换行) 条件取决于sumL。为了不浪费您的时间，我没有描述细节。问题在于交换指针。 for ( k = 0
c++ - 中途反转/交换
要反转整个 vector，存在 std::reverse。但我想将一个 vector “划分”为两部分(恰好在中间)并将两者反转，将它们放回一起并再次反转整个 vector 。例如我们有: 0 1 2
java - 交换 if 语句
我正在致力于代码最小化和增强。我的问题是:是否可以在不破坏代码逻辑的情况下交换上面的 if 语句？ int c1 = Integer.parseInt(args[0]) ; int c
c++ - 交换 vector 以释放它
我读过释放 vector 内存的最佳方法是: vector().swap(my_vector); 而且我真的不明白发生了什么。交换函数需要 2 个 vector 并交换它们的元素，例如: vector
string - 交换 Haskell 字符串中的多对字符
我正在尝试编写一个 Haskell 函数，该函数接受一串字母对，并在所有字母组成的字符串中交换该对字母，但我想出的方法感觉很尴尬且不惯用。我有 swap a b = map (\x-> if x =
jquery - 交换 jQuery 中的两个元素
我正在尝试使用向上和向下箭头交换两个元素。 JSFiddle 解决方案会很棒! 我的 HTML: Some text down Some ot
cocoa - 自动布局 View 交换
当将 subview 与另一个太阳 View 交换时，是否需要重新应用约束？是否需要删除适用于已删除 View 的约束？或者它们应该自动持续存在？最佳答案约束是 View 的“一部分”。当您删除
javascript - 交换 AngularJS 语法导致错误
所以我制作网站已经有一段时间了，但只是真正用于显示和信息的东西。我想尝试一下 AngularJs，所以我遵循了 Codeschool 上的指南。当我根据在线文档意识到我使用的语法不被推荐时，我在该应用
javascript - 交换 unicode 字符
我正在尝试编写一个函数，可以将字符串中的 unicode 字符替换为非 unicode ASCII 字符，问题是上传包含它们的字符串时，unicode 连字符和引号不会被读取。我希望该函数有一个带有
Azure 网站和 VIP 交换
我目前正在使用 Azure 网站来部署我的应用程序。我目前正在使用两个网站，每个网站监听我的 GIT 的不同分支。如图所示here . 现在，为了让它变得完美，我只是缺少一种在这两个实例之间快速切换的
javascript - 交换
标签中的值？
在我的 javascript 中，有两个包含一些值的 div。我想交换这些div中的值。有什么解决办法吗？最佳答案 var temp = $('#div1').html(); $('#div1'

首页

博学

6Ren·AI

商城

c - SSE 字节和半字交换