performance - AVX 与 SSE : expect to see a larger speedup-6ren

performance - AVX 与 SSE : expect to see a larger speedup

转载作者：行者123 更新时间：2023-12-05 03:07:37

25

4

我预计 AVX 比 SSE 快 1.5 倍左右。所有 3 个数组(3 个数组 * 16384 个元素 *4 字节/元素 = 196608 字节)应该适合 Intel Core CPU (Broadwell) 上的二级缓存 (256KB)。

是否有任何我应该使用的特殊编译器指令或标志？

编译器版本

$  clang --version
Apple LLVM version 9.0.0 (clang-900.0.38)
Target: x86_64-apple-darwin16.7.0
Thread model: posix
InstalledDir: /Applications/Xcode.app/Contents/Developer/Toolchains/XcodeDefault.xctoolchain/usr/bin

编译行

$  make avx
clang -O3 -fno-tree-vectorize -msse -msse2 -msse3 -msse4.1 -mavx -mavx2 avx.c ; ./a.out 123
n: 123
  AVX Time taken: 0 seconds 177 milliseconds
vector+vector:begin int: 1 5 127 0

  SSE Time taken: 0 seconds 195 milliseconds
vector+vector:begin int: 1 5 127 0

avx.c

#include <stdio.h>
#include <stdlib.h>
#include <x86intrin.h>
#include <time.h>
#ifndef __cplusplus
#include <stdalign.h>   // C11 defines _Alignas().  This header defines alignas()
#endif
#define REPS 50000
#define AR 16384

// add int vectors via AVX
__attribute__((noinline)) 
void add_iv_avx(__m256i *restrict a, __m256i *restrict b, __m256i *restrict out, int N) {

    __m256i *x = __builtin_assume_aligned(a, 32);
    __m256i *y = __builtin_assume_aligned(b, 32);
    __m256i *z = __builtin_assume_aligned(out, 32);

    const int loops = N / 8; // 8 is number of int32 in __m256i
    for(int i=0; i < loops; i++) { 
        _mm256_store_si256(&z[i], _mm256_add_epi32(x[i], y[i]));
    }
}

// add int vectors via SSE; https://en.wikipedia.org/wiki/Restrict
__attribute__((noinline)) 
void add_iv_sse(__m128i *restrict a, __m128i *restrict b, __m128i *restrict out, int N) {

    __m128i *x = __builtin_assume_aligned(a, 16);
    __m128i *y = __builtin_assume_aligned(b, 16);
    __m128i *z = __builtin_assume_aligned(out, 16);

    const int loops = N / sizeof(int);
    for(int i=0; i < loops; i++) { 
        //out[i]= _mm_add_epi32(a[i], b[i]); // this also works
        _mm_storeu_si128(&z[i], _mm_add_epi32(x[i], y[i]));
    } 
}

// printing
void p128_as_int(__m128i in) {
    alignas(16) uint32_t v[4];
    _mm_store_si128((__m128i*)v, in);
    printf("int: %i %i %i %i\n", v[0], v[1], v[2], v[3]);
}

__attribute__((noinline)) 
void debug_print(int *h) {
    printf("vector+vector:begin ");
    p128_as_int(* (__m128i*) &h[0] );
}

int main(int argc, char *argv[]) {
    int n = atoi (argv[1]);
    printf("n: %d\n", n);

    int *x,*y,*z;
    if (posix_memalign((void**)&x, 32, 16384*sizeof(int))) { free(x); return EXIT_FAILURE; }
    if (posix_memalign((void**)&y, 32, 16384*sizeof(int))) { free(y); return EXIT_FAILURE; }
    if (posix_memalign((void**)&z, 32, 16384*sizeof(int))) { free(z); return EXIT_FAILURE; }
    x[0]=0; x[1]=2; x[2]=4;
    y[0]=1; y[1]=3; y[2]=n;

    // touch each 4K page in x,y,z to avoid copy-on-write optimizations
    for (int i=512; i<AR; i+= 512) { x[i]=1; y[i]=1; z[i]=1; }

    // warmup
    for(int i=0; i<REPS; ++i) { add_iv_avx((__m256i*)x, (__m256i*)y, (__m256i*)z, AR); }
    // AVX
    clock_t start = clock();
    for(int i=0; i<REPS; ++i) { add_iv_avx((__m256i*)x, (__m256i*)y, (__m256i*)z, AR); }
    int msec = (clock()-start) * 1000 / CLOCKS_PER_SEC;
    printf("  AVX Time taken: %d seconds %d milliseconds\n", msec/1000, msec%1000);
    debug_print(z);

    // warmup
    for(int i=0; i<REPS; ++i) { add_iv_sse((__m128i*)x, (__m128i*)y, (__m128i*)z, AR); }
    // SSE
    start = clock();
    for(int i=0; i<REPS; ++i) { add_iv_sse((__m128i*)x, (__m128i*)y, (__m128i*)z, AR); }
    msec = (clock()-start) * 1000 / CLOCKS_PER_SEC;
    printf("\n  SSE Time taken: %d seconds %d milliseconds\n", msec/1000, msec%1000);
    debug_print(z);

    return EXIT_SUCCESS;
}

最佳答案

问题是您的数据不适合 L1 缓存。Broadwell 的 L1 带宽远大于 L2 带宽。L1 带宽足够大，可以在每个 cpu 周期加载两个 32 字节的向量。因此，更好的 AVX 与 SSE 加速如果您的数据集小得多，则可能是预期的。但是，请注意L1 读/写组合带宽小于 2*32(r)+32(w)=96 字节/周期。实际上每个周期 75 个字节是可能的，参见 here .

第二张图 this页面显示 L2 带宽确实小得多:在 Test_block_size=128KB(=32KB/核)带宽为 900GB/s。在 Test_block_size=1MB(=256KB/核)时，带宽仅为 300GB/s。(请注意，Haswell 4770k 与 Broadwell 具有或多或少相同的 L1 和 L2 缓存架构。)

尝试将 AR 减少到 2000 并将 NREP 增加到 1000000，看看 SSE 与 AVX 加速相比会发生什么。

关于performance - AVX 与 SSE : expect to see a larger speedup，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/47115510/

25

4

0

文章推荐： string - 如何删除特定字符串后的其余行

文章推荐： r - ggplot2 中的注释不支持换行符是粘贴和解析的命令

expect - Expect 脚本还值得学习吗？
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the
expect - Expect 脚本的用户输入
我是脚本新手。如何编写 Expect 脚本以通过 ssh 连接到设备并提示用户输入密码？我们使用 pin + RSA token 代码作为密码，因此我无法存储密码。 #!/usr/bin/expect
expect - Expect 脚本中的 Do-while
我编写了以下代码并尝试执行它。但我在执行 do {”时遇到“无效的命令名称“do”” 代码: #!/usr/bin/expect set val 0; set input 5; do { pu
expect - Expect 的 "-r"命令中的 "expect -r PATTERN"是什么意思？
我已经查看了 Expect 联机帮助页并用 Google 搜索了它，但我还没有找到 expect 的 -r 是什么。我看到这个选项以前是这样用的 expect -r "\r\n\r\n" 在 expe
expect - 如何将调试信息重定向到 expect 脚本中的文本文件？
我的 shebang 看起来像这样: #!/usr/bin/expect -d 当我从命令行运行脚本时，它会提供我想要的内容。但是，我通过 crontab 运行这个脚本。是否可以将调试开关保持打开状
expect - 在一个 Expect 脚本中处理多个语句
我是 Expect 脚本的新手。我在 Linux 机器上为 ssh 编写了一个 Expect 脚本，在那里我在 ssh 到不同的 Linux 机器时遇到了问题。下面我复制了脚本。 !/usr/loc
actionscript-3 - 语法错误: expecting identifier before this. expecting colon before leftparen. expecting identifier before rightbrace
Scene 1, Layer 'script', Frame 1, Line 9 1084: Syntax error: expecting identifier before this. Sc
expect - log_file 命令不在 Expect 脚本中记录命令的输出
我正在运行调试命令以将命令的输出记录到文件中。我尝试了 log_file 命令，但它没有记录输出。我的代码如下: log_file -a gdb.txt send "~/debugulator.sh
Expect - expect_user 和 expect 的超时时间不同？
我希望 expect_user 有一个无限的(或非常大的)超时和 expect 的默认超时。有没有办法设置不同的超时？或者我是否只需要在每次更改用途之前手动执行此操作？最佳答案 expect 和ex
iOS内联if else编译错误: "Expected : "; "Expected expression"
我正在学习 iOS 编程(我来自 Android)，我正在寻找更容易获取字符串的方法。有了这个建议，我定义了下一个宏并在一些代码片段中使用它: #define STRING_BASE @"InfoPl
ruby-on-rails - Rspec expect( ) 与 expect { }
你好我是 rspec 的新手，我想弄清楚将 block 传递给 expect{} 和只使用 expect() 之间的区别这是一个简单的例子 require "rails_helper" RSpec.
reactjs - expect(received).toEqual(expected) - 错误
我正在尝试为 React JS 运行单元测试 - 使用 jest/enzyme。目前测试失败。不太清楚为什么，也许我没有正确调用 expect(wrapper.find)。这是我测试的一部分: F
expect - 如何在连接到 ssh 服务器时执行 expect 脚本
例如，现在我有一个“root.exp”期望脚本如下: spawn ssh user@ip expect "Password:" send "password" 然后，我要发送到这个ssh服务器的exp
expect - 使用 Expect 脚本将 IP 地址提取到变量
您好，我是 Expect 脚本编写的新手，我一直在尝试使用以下方法将 IP 地址获取到变量中: set timeout -1 spawn $env(SHELL) match_max 100000 se
javascript - expect.anything() 不适用于 expect.toBe()
expect.anything() 不适用于 expect.toBe()，但适用于 expect.toEqual() test("this will pass", () => { expect("
Linux shell : my `expect` script doesn't work as expected
我有一个如下所示的简单脚本，从命令行读取 2 个数字并将它们加在一起: $cat runexp.sh #!/bin/bash echo "read 1st number" read n1 echo "
linux - expect script + fit expect 以防不需要密码
当 Linux 机器的 $IP 登录后询问密码时，下面的 expect 脚本工作正常但在某些情况下，某些Linux机器不需要ssh密码(我们可以不用密码登录)，所以我需要更改我的期望脚本以支持没有
linux - Expect 脚本 - 发送字符串所需的引号与 expect 所需的引号冲突
我正在尝试使用 expect 远程登录服务器并更改用户密码。该应用程序要求，如果您要更改的密码包含特殊字符，则将其引用。问题是，还需要引用 expect send 语句，当我尝试将两者结合起来时，脚本
linux - expect + 如何识别 expect break 因为超时？
下面这个简单的 expect 脚本的目标是获取远程机器上的 hostname 名称有时期望脚本无法执行到 $IP_ADDRESS 的 ssh(因为远程机器不活动等) 所以在这种情况下，expect
rust - .expect( format!() ) : expected `&str` , 找到结构 `String`
我试图创建一个宏来替换， first: Some(first.as_ref().parse::().expect("Could not parse 'first'")) 我在其他模块(如 Clap w

首页

博学

6Ren·AI

商城

performance - AVX 与 SSE : expect to see a larger speedup