英特尔 C 编译器使用未对齐的 SIMD 移动和对齐的内存-6ren

英特尔 C 编译器使用未对齐的 SIMD 移动和对齐的内存

转载作者：行者123 更新时间：2023-12-01 07:43:59

25

4

我正在使用 Haswell Core i7-4790K。

当我用 icc -O3 -std=c99 -march=core-avx2 -g 编译以下玩具示例时:

#include <stdio.h>
#include <stdint.h>
#include <immintrin.h>

typedef struct {
  __m256i a;
  __m256i b;
  __m256i c;
} mystruct_t;

#define SIZE     1000
#define TEST_VAL 42

int _do(mystruct_t* array) {
  int value = 0;

  for (size_t i = 0; i < SIZE; ++i) {
    array[i].a = _mm256_set1_epi8(TEST_VAL + i*3    );
    array[i].b = _mm256_set1_epi8(TEST_VAL + i*3 + 1);
    array[i].c = _mm256_set1_epi8(TEST_VAL + i*3 + 2);

    value += _mm_popcnt_u32(_mm256_movemask_epi8(array[i].a)) +
             _mm_popcnt_u32(_mm256_movemask_epi8(array[i].b)) +
             _mm_popcnt_u32(_mm256_movemask_epi8(array[i].c));
  }

  return value;
}

int main() {
  mystruct_t* array = (mystruct_t*)_mm_malloc(SIZE * sizeof(*array), 32);
  printf("%d\n", _do(array));
  _mm_free(array);
}

为 _do() 生成以下 ASM 代码功能:

0x0000000000400bc0 <+0>:    xor    %eax,%eax
0x0000000000400bc2 <+2>:    xor    %ecx,%ecx
0x0000000000400bc4 <+4>:    xor    %edx,%edx
0x0000000000400bc6 <+6>:    nopl   (%rax)
0x0000000000400bc9 <+9>:    nopl    0x0(%rax)
0x0000000000400bd0 <+16>:   lea     0x2b(%rdx),%r8d
0x0000000000400bd4 <+20>:   inc    %ecx
0x0000000000400bd6 <+22>:   lea     0x2a(%rdx),%esi
0x0000000000400bd9 <+25>:   lea     0x2c(%rdx),%r9d
0x0000000000400bdd <+29>:   add    $0x3,%edx
0x0000000000400be0 <+32>:   vmovd  %r8d,%xmm1
0x0000000000400be5 <+37>:   vpbroadcastb %xmm1,%ymm4
0x0000000000400bea <+42>:   vmovd  %esi,%xmm0
0x0000000000400bee <+46>:   vpmovmskb %ymm4,%r11d
0x0000000000400bf2 <+50>:   vmovd  %r9d,%xmm2
0x0000000000400bf7 <+55>:   vmovdqu %ymm4,0x20(%rdi)
0x0000000000400bfc <+60>:   vpbroadcastb %xmm0,%ymm3
0x0000000000400c01 <+65>:   vpbroadcastb %xmm2,%ymm5
0x0000000000400c06 <+70>:   vpmovmskb %ymm3,%r10d
0x0000000000400c0a <+74>:   vmovdqu %ymm3,(%rdi)
0x0000000000400c0e <+78>:   vmovdqu %ymm5,0x40(%rdi)
0x0000000000400c13 <+83>:   popcnt %r11d,%esi
0x0000000000400c18 <+88>:   add    $0x60,%rdi
0x0000000000400c1c <+92>:   vpmovmskb %ymm5,%r11d
0x0000000000400c20 <+96>:   popcnt %r10d,%r9d
0x0000000000400c25 <+101>:  popcnt %r11d,%r8d
0x0000000000400c2a <+106>:  add    %esi,%r9d
0x0000000000400c2d <+109>:  add    %r8d,%r9d
0x0000000000400c30 <+112>:  add    %r9d,%eax
0x0000000000400c33 <+115>:  cmp    $0x3e8,%ecx
0x0000000000400c39 <+121>:  jb      0x400bd0 <_do+16>
0x0000000000400c3b <+123>:  vzeroupper 
0x0000000000400c3e <+126>:  retq   
0x0000000000400c3f <+127>:  nop

如果我使用 gcc-5 -O3 -std=c99 -mavx2 -march=native -g 编译相同的代码，为 _do() 生成以下 ASM 代码功能:

0x0000000000400650 <+0>:    lea     0x17700(%rdi),%r9
0x0000000000400657 <+7>:    mov    $0x2a,%r8d
0x000000000040065d <+13>:   xor    %eax,%eax
0x000000000040065f <+15>:   nop
0x0000000000400660 <+16>:   lea     0x1(%r8),%edx
0x0000000000400664 <+20>:   vmovd  %r8d,%xmm2
0x0000000000400669 <+25>:   xor    %esi,%esi
0x000000000040066b <+27>:   vpbroadcastb %xmm2,%ymm2
0x0000000000400670 <+32>:   vmovd  %edx,%xmm1
0x0000000000400674 <+36>:   add    $0x60,%rdi
0x0000000000400678 <+40>:   lea     0x2(%r8),%edx
0x000000000040067c <+44>:   vpbroadcastb %xmm1,%ymm1
0x0000000000400681 <+49>:   vmovdqa %ymm2,-0x60(%rdi)
0x0000000000400686 <+54>:   add    $0x3,%r8d
0x000000000040068a <+58>:   vmovd  %edx,%xmm0
0x000000000040068e <+62>:   vpmovmskb %ymm2,%edx
0x0000000000400692 <+66>:   vmovdqa %ymm1,-0x40(%rdi)
0x0000000000400697 <+71>:   vpbroadcastb %xmm0,%ymm0
0x000000000040069c <+76>:   popcnt %edx,%esi
0x00000000004006a0 <+80>:   vpmovmskb %ymm1,%edx
0x00000000004006a4 <+84>:   popcnt %edx,%edx
0x00000000004006a8 <+88>:   vpmovmskb %ymm0,%ecx
0x00000000004006ac <+92>:   add    %esi,%edx
0x00000000004006ae <+94>:   vmovdqa %ymm0,-0x20(%rdi)
0x00000000004006b3 <+99>:   popcnt %ecx,%ecx
0x00000000004006b7 <+103>:  add    %ecx,%edx
0x00000000004006b9 <+105>:  add    %edx,%eax
0x00000000004006bb <+107>:  cmp    %rdi,%r9
0x00000000004006be <+110>:  jne     0x400660 <_do+16>
0x00000000004006c0 <+112>:  vzeroupper 
0x00000000004006c3 <+115>:  retq

我的问题是:

1) 与 gcc 不同，为什么 icc 使用未对齐的移动 (vmovdqu)？

2) 在对齐内存上使用 vmovdqu 而不是 vmovdqa 时是否会受到惩罚？

P.S:问题与使用 SSE 指令/寄存器相同。

谢谢

最佳答案

本地址对齐时，使用 VMOVDQU 没有任何损失。在这种情况下，该行为与使用 VMOVDQA 相同。

至于“为什么”，可能没有一个明确的答案。 ICC 可能故意这样做，以便后来调用 _do 的用户使用未对齐的参数不会崩溃，但也有可能只是编译器的紧急行为。英特尔编译器团队的某个人可以回答这个问题，我们其他人只能推测。

关于英特尔 C 编译器使用未对齐的 SIMD 移动和对齐的内存，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34637869/

25

4

0

文章推荐： jquery - 使用 jquery 根据数据属性获取输入文本值

文章推荐： openvms - OpenVMS 中的 DCL 符号语法

文章推荐： graphviz - Graphviz 中的布局

文章推荐： Doctrine ORM 条件关联

python - 英特尔 MKL 加载失败。英特尔 MKL fatal error : Cannot load libmkl_core. dylib
我尝试设置一个文件来使用 PyCharm 编写 AI。我正在使用的教程:https://www.youtube.com/watch?v=ujTCoH21GlA 当我运行代码时: $ import t
cpu - 每个周期的浮点运算 - 英特尔
我一直在寻找很长一段时间，似乎无法找到一个官方/结论性的数字来引用英特尔至强四核可以完成的单精度浮点运算/时钟周期的数量。我有一个 Intel Xeon 四核 E5530 CPU。我希望用它来计算我
CPU比GPU训练神经网络快十几倍，英特尔：别用矩阵运算了
在深度学习与神经网络领域，研究人员通常离不开 GPU。得益于 GPU 极高内存带宽和较多核心数，研究人员可以更快地获得模型训练的结果。与此同时，CPU 受限于自身较少的核心数，计算运行需要较长的时间
英特尔 SGX 线程与 TCS
我试图了解 TCS 启用的 SGX 线程与 SDK 提供的不受信任线程之间的区别. 如果我理解正确的话，TCS 允许多个逻辑处理器进入同一个飞地。每个逻辑处理器都有自己的 TCS，因此也有自己的入口点
assembly - 英特尔 IACA 分析器改变了组装？
我想通过 IACA 分析器运行一些代码以查看它使用了多少个 uops——我从一个简单的函数开始，看看它是否在工作。不幸的是，当我插入 IACA 说要使用的宏时，生成的程序集非常不同，因此对它的任何分
security - 英特尔 SGX 开发人员许可和开源软件
是否有可能获得许可的开发人员证书，以在生产模式下签署经过安全审查、社区开发的开源 SGX 软件二进制文件，并将其发布在 apt 或 rpm 等开源存储库中？我刚问过英特尔 SGX 团队，他们说只有经
port - 英特尔 8080 指令 : OUT
我正在尝试模拟 Intel 8080 指令集，但我被这条指令卡住了 OUT D8 ，根据书Intel 8080/8085 Assembly Language Programming它说 OUT ins
fortran - 英特尔 FORTRAN 中的解除分配
我在使用一些现有的 FORTRAN 代码时发现了一个问题。尽管它已经预料到需要在重新分配之前释放数组，但这从来没有必要。我现在需要它来执行此操作，但它无法正常运行。当前的伪代码大约是: MODULE
fortran - 英特尔 Fortran 中结构内的数据对齐
我正在尝试在内存中对齐以下类型的数据: type foo real, allocatable, dimension(:) :: bar1, bar2 !dir$ attributes al
gpl - 英特尔 TBB 许可证
关闭。这个问题是off-topic .它目前不接受答案。想改善这个问题吗？ Update the question所以它是 on-topic对于堆栈溢出。 8年前关闭。 Improve this q
multithreading - 英特尔 SFENCE 有发布语义吗？
似乎获得和释放语义的公认定义是这样的: (引自 http://msdn.microsoft.com/en-us/library/windows/hardware/ff540496(v=vs.85).a
multithreading - 英特尔 TBB 流程图开销
这是我对英特尔 TBB 流图性能进行基准测试的尝试。这是设置: 一个广播节点发送continue_msg到 N 后继节点 (一broadcast_node) 每个后继节点执行一次计算，该计算需要 t
javascript - 英特尔 xdk - 服务器端
我有两个问题第一个问题:我使用 css3、HTML5、JavaScript 开发应用程序。在我的应用程序中，我需要从数据库中获取数据。我该怎么做？第二个问题:intel xdk 在构建 l 时必须
performance - 英特尔 CPU 指令队列提供静态分支预测？
在英特尔手册的第 3 卷中，它包含硬件事件计数器的描述: BACLEAR_FORCE_IQ Counts number of times a BACLEAR was forced by the Ins
javascript - 英特尔 xdk 数据库
嘿，我正在使用 Intel xdk 开发混合应用程序。我已经创建了注册表，然后我将代码放在那里。我尝试使用 Php Mysql 将数据库插入我的数据库后。如果我单击注册按钮，它会显示这样的错误 [
c - 英特尔 C++ - 优化器消息
我想知道是否可以让英特尔 C++ 编译器(或其他编译器，如 gcc 或 clang)显示一些来自优化器的消息。我想知道优化器究竟对我的代码做了什么。默认情况下，编译器只打印非常基本的东西，比如未使用的
assembly - 英特尔 AVX2 组装开发
我正在使用 64 位架构的 Intel 程序集优化我的视频解码器。为了优化，我使用 AVX2 指令集。我的开发环境:- 操作系统:- Win 7(64位) IDE:- MSVS 2008(教授) C
fortran - 英特尔 Fortran 值属性
如果这是一个非常愚蠢的问题，我很抱歉；我的 Fortran 不太好。我正在移植一些旧的 Fortran 代码，并遇到了这个子例程定义: SUBROUTINE SET_HYDROMODULE(HYDRO
cordova - 英特尔 XDK + Phonegap
请问，我是否可以将 Intel XDK API 和 Phonegap API 集成到单个移动应用程序中？这是因为，某些 API 仅在 Phonegap 中可用，反之亦然。最佳答案是的，如果我正确理
assembly - 英特尔 x86 操作码引用？
在 x86 中查找任意操作码的含义(例如 0xC8 )的相对快速简便的方法是什么？ Intel Software Developer's manual搜索起来不是很有趣...... 最佳答案查询 t

首页

博学

6Ren·AI

商城

英特尔 C 编译器使用未对齐的 SIMD 移动和对齐的内存