rust - 缓慢的 SIMD 性能 - 没有内联-6ren

rust - 缓慢的 SIMD 性能 - 没有内联

转载作者：行者123 更新时间：2023-12-05 00:43:00

24

4

考虑以下计算 i32 数组和的示例:

示例 1:简单的 for 循环

pub fn vec_sum_for_loop_i32(src: &[i32]) -> i32 {
    let mut sum = 0;
    for c in src {
        sum += *c;
    }

    sum
}

示例 2:显式 SIMD 和:

use std::arch::x86_64::*;
// #[inline]
pub fn vec_sum_simd_direct_loop(src: &[i32]) -> i32 {
    #[cfg(debug_assertions)]
    assert!(src.as_ptr() as u64 % 64 == 0);
    #[cfg(debug_assertions)]
    assert!(src.len() % (std::mem::size_of::<__m256i>() / std::mem::size_of::<i32>()) == 0);

    let p_src = src.as_ptr();
    let batch_size = std::mem::size_of::<__m256i>() / std::mem::size_of::<i32>();

    #[cfg(debug_assertions)]
    assert!(src.len() % batch_size == 0);

    let result: i32;
    unsafe {
        let mut offset: isize = 0;
        let total: isize = src.len() as isize;
        let mut curr_sum = _mm256_setzero_si256();

        while offset < total {
            let curr = _mm256_load_epi32(p_src.offset(offset));
            curr_sum = _mm256_add_epi32(curr_sum, curr);
            offset += 8;
        }

        // this can be reduced with hadd.
        let a0 = _mm256_extract_epi32::<0>(curr_sum);
        let a1 = _mm256_extract_epi32::<1>(curr_sum);
        let a2 = _mm256_extract_epi32::<2>(curr_sum);
        let a3 = _mm256_extract_epi32::<3>(curr_sum);
        let a4 = _mm256_extract_epi32::<4>(curr_sum);
        let a5 = _mm256_extract_epi32::<5>(curr_sum);
        let a6 = _mm256_extract_epi32::<6>(curr_sum);
        let a7 = _mm256_extract_epi32::<7>(curr_sum);

        result = a0 + a1 + a2 + a3 + a4 + a5 + a6 + a7;
    }

    result
}

当我尝试对代码进行基准测试时，第一个示例的速度约为 23GB/s(这接近我的 RAM 速度的理论最大值)。第二个示例获得 8GB/s。

当查看带有 cargo asm 的程序集时，第一个示例转换为展开的 SIMD 优化循环:

.LBB11_7:
 sum += *c;
 movdqu  xmm2, xmmword, ptr, [rcx, +, 4*rax]
 paddd   xmm2, xmm0
 movdqu  xmm0, xmmword, ptr, [rcx, +, 4*rax, +, 16]
 paddd   xmm0, xmm1
 movdqu  xmm1, xmmword, ptr, [rcx, +, 4*rax, +, 32]
 movdqu  xmm3, xmmword, ptr, [rcx, +, 4*rax, +, 48]
 movdqu  xmm4, xmmword, ptr, [rcx, +, 4*rax, +, 64]
 paddd   xmm4, xmm1
 paddd   xmm4, xmm2
 movdqu  xmm2, xmmword, ptr, [rcx, +, 4*rax, +, 80]
 paddd   xmm2, xmm3
 paddd   xmm2, xmm0
 movdqu  xmm0, xmmword, ptr, [rcx, +, 4*rax, +, 96]
 paddd   xmm0, xmm4
 movdqu  xmm1, xmmword, ptr, [rcx, +, 4*rax, +, 112]
 paddd   xmm1, xmm2
 add     rax, 32
 add     r11, -4
 jne     .LBB11_7
.LBB11_8:
 test    r10, r10
 je      .LBB11_11
 lea     r11, [rcx, +, 4*rax]
 add     r11, 16
 shl     r10, 5
 xor     eax, eax

第二个示例没有任何循环展开，甚至没有将代码内联到 _mm256_add_epi32:

...
movaps  xmmword, ptr, [rbp, +, 320], xmm7
 movaps  xmmword, ptr, [rbp, +, 304], xmm6
 and     rsp, -32
 mov     r12, rdx
 mov     rdi, rcx
 lea     rcx, [rsp, +, 32]
 let mut curr_sum = _mm256_setzero_si256();
 call    core::core_arch::x86::avx::_mm256_setzero_si256
 movaps  xmm6, xmmword, ptr, [rsp, +, 32]
 movaps  xmm7, xmmword, ptr, [rsp, +, 48]
 while offset < total {
 test    r12, r12
 jle     .LBB13_3
 xor     esi, esi
 lea     rbx, [rsp, +, 384]
 lea     r14, [rsp, +, 64]
 lea     r15, [rsp, +, 96]
.LBB13_2:
 let curr = _mm256_load_epi32(p_src.offset(offset));
 mov     rcx, rbx
 mov     rdx, rdi
 call    core::core_arch::x86::avx512f::_mm256_load_epi32
 curr_sum = _mm256_add_epi32(curr_sum, curr);
 movaps  xmmword, ptr, [rsp, +, 112], xmm7
 movaps  xmmword, ptr, [rsp, +, 96], xmm6
 mov     rcx, r14
 mov     rdx, r15
 mov     r8, rbx
 call    core::core_arch::x86::avx2::_mm256_add_epi32
 movaps  xmm6, xmmword, ptr, [rsp, +, 64]
 movaps  xmm7, xmmword, ptr, [rsp, +, 80]
 offset += 8;
 add     rsi, 8
 while offset < total {
 add     rdi, 32
 cmp     rsi, r12
...

这当然是一个非常简单的例子，我不打算使用手工制作的 SIMD 来进行简单的求和。但我仍然对为什么显式 SIMD 如此缓慢以及为什么使用 SIMD 内部函数会导致代码如此未优化感到困惑。

最佳答案

您似乎忘记告诉 rustc 允许在任何地方使用 AVX2 指令，因此它无法内联这些函数。相反，您会遇到只有包装函数编译为的完全灾难使用 AVX2 的函数，或类似的东西。

-O -C target-cpu=skylake-avx512 (https://godbolt.org/z/csY5or43T) 对我来说很好，因此它甚至可以内联您使用的 AVX512VL 负载 _mm256_load_epi32 ¹，然后在紧密循环中将其优化为 vpaddd ymm0, ymm0, ymmword ptr [rdi + 4*rax] (AVX2) 的内存源操作数。

在 GCC/clang 中，在这种情况下，您会收到类似“inlining failed in call to always_inline foobar”的错误，而不是工作但 asm 速度慢。 (见 this for details)。这可能是 Rust 在准备好黄金时间之前应该解决的问题，要么像 MSVC 那样使用内在函数将指令实际内联到函数中，要么拒绝像 GCC/clang 那样编译。

脚注 1:见 How to emulate _mm256_loadu_epi32 with gcc or clang?如果您不是要使用 AVX512。

使用 -O -C target-cpu=skylake(只是 AVX2)，它内联了所有其他内容，包括 vpaddd ymm，但仍然调用一个复制的函数使用 AVX vmovaps 从内存到内存的 32 个字节。它需要 AVX512VL 内联内在函数，但在优化过程的后期，它意识到没有屏蔽，它只是一个 256 位加载，它应该在没有臃肿的 AVX-512 指令的情况下进行。英特尔甚至提供了需要 AVX-512 的 _mm256_mask[z]_loadu_epi32 的无屏蔽版本，这有点愚蠢。或者愚蠢的是 gcc/clang/rustc 认为它是 AVX512 内在的。

关于rust - 缓慢的 SIMD 性能 - 没有内联，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71806517/

24

4

0

文章推荐： maui - .NET MAUI 边框和框架之间的区别

文章推荐： r - 检查两个字符串是否是字谜

html - 内联/内联 block 不起作用。 Div 仍然堆积
我之前已经发布了一些这样的代码，试图在正确的位置获得侧边栏链接并以一种特殊的方式看起来，我决定朝着不同的方向前进。我现在需要的是知道我应该做什么来获得我在侧边栏旁边而不是下方标记为“内容”的 div。
html - 内联/内联 block 元素的 CSS 垂直对齐
我试图让多个 inline 和 inline-block 组件在 div 中垂直对齐。这个例子中的span怎么就非要往下推呢？我已经尝试了 vertical-align:middle; 和 verti
html - 内联/内联 block 元素的 CSS 垂直对齐
我试图让多个 inline 和 inline-block 组件在 div 中垂直对齐。这个例子中的span怎么就非要往下推呢？我已经尝试了 vertical-align:middle; 和 verti
html - 内联/内联 block 元素的 CSS 垂直对齐
我试图让多个 inline 和 inline-block 组件在 div 中垂直对齐。这个例子中的span怎么就非要往下推呢？我已经尝试了 vertical-align:middle; 和 verti
html - CSS - 带边框的 UL 内联 LI 改变 block (v) 内联？
我很困惑...所以我在容器中有一个 UL，当我更改 UL 上方的 DIV 时，它似乎会影响 UL 之后的流程...发生了什么事？ DIV 是 block 元素，对吗？和 UL 一样，对吧？所以在这个
Are the "inline" keyword and "inlining" optimization separate concepts?(“内联”关键字和“内联”优化是不同的概念吗？)
我问这个基本问题是为了澄清事实。都提到了这个问题及其目前接受的答案，这是不令人信服的。然而，投票第二多的答案提供了更好的洞察力，但也不是完美的。。在阅读下面的内容时，请尝试区分内联关键字和“内联”概念
悬停时javascript更改图像(内联)
function roll_over(img_name, img_src) { document[img_name].src = img_src; } 我使用此代码来显示 T 恤并在鼠标悬停时显
angularjs - 内联 if 中的多个语句
是否可以在 AngularJS 表达式的内联 if 语句中包含多个语句？例如，以下失败: ng-change="someCondition() ? doA(); doB() : doC()" ng-c
R 内联 Markdown
我在 RStudio 中使用 R Markdown 创建一个混合 Markdown 和 R 输出的报告。我知道如何在 Markdown 中使用内联 R 表达式，但我想知道如何进行相反的操作，即在 R
CKEditor 内联 - 无法添加表单标签
我们无法将表单标签添加到内联 CKEditor来自 chrome 和 IE，但它在 Firefox 中运行良好。如果我们将表单添加到内联 CKEditor，它会删除表单标签。例如:如果我在 Fire
Javascript 广播显示无/内联
在我的 HTML 代码中，我有两个输入: Yes No 现在我有一个默认情况下的 div，因为它的样式显示内联，我希望当我单击“否”时，它会使其样式不显示，而"is"则会使其内联，所以我制作了此功
PowerShell 内联 If (IIf)
如何在 PowerShell 中创建带有内联 If 的语句(IIf，另请参阅: Immediate if 或 ternary If )？如果您也认为这应该是 native PowerShell 函数
Django 内联-允许添加禁用编辑
嗨。我在阅读以下问题后提出这个问题:Question_1和 Question_2 。 Question_1 没有任何合适的答案，Question_2 有替代解决方案，但不是完美的解决方案。这里我有两
Python 内联 if 语句
有人可以帮我解决以下语法或告诉我是否可行吗？因为我要修改 if ... else ... 条件。我不想在列表中添加重复的值，但我收到了 KeyError。其实我不太熟悉这种说法: twins[val
python - 内联 if 语句的允许语法
有时我喜欢滥用 python 语法，特别是短的 if block : if True : print 'Hello' else : print 'Bye' 现在我尝试对函数定义做同样的事情: i
内联 block 中的绝对定位元素
我在尝试将 Logo 容器底部对齐到零高度父级时遇到了问题。最好，我想用纯 CSS 来实现这一点。在附带的 fiddle 中，我想让 control-group 的底部与零高度 panel 元素的顶
Javascript 内联 HTML
我需要内联编写 HTML 和 Javascript 代码，即在 HTML 正文中(需要显示一些随机整数值)我搜索了很多博客，但到目前为止没有找到任何帮助。请指教。我想实现这个功能: Offer
虚拟继承函数的 C++ 内联
好吧，这更多的是要求澄清 C++ 的一个特性是如何工作的，而不是一个是否可以的答案。我将从解释我遇到的问题开始，因为直接的答案是它不是一个很好的类设计。我有一个类正在形成一个无法维护的 if 语句
c# - 内联 If 语句中的默认条件
我正在我的 C# 代码中获取一个数据库行。行包含 3 个不同的标志(3 列具有 true 或 false 值)。这些列中只有一列为真，这将决定该对象的类型。我如何在一行代码中确定该对象的类型。如果所有
CSS 字体粗体 - 内联
在 CSS 中，我如何才能只将电话号码加粗，以便它与声明的其余部分内联，但电话号码是加粗的？而不是在 HTML 中这样做: › Start posting jobs today– 0

首页

博学

6Ren·AI

商城

rust - 缓慢的 SIMD 性能 - 没有内联