gcc - GCC 内置向量化类型和 C 数组之间有什么区别？-6ren

gcc - GCC 内置向量化类型和 C 数组之间有什么区别？

转载作者：行者123 更新时间：2023-12-03 17:52:58

24

4

我有三个功能a() , b()和 c()应该做同样的事情:

typedef float Builtin __attribute__ ((vector_size (16)));

typedef struct {
        float values[4];
} Struct;

typedef union {
        Builtin b;
        Struct s;
} Union;

extern void printv(Builtin);
extern void printv(Union);
extern void printv(Struct);

int a() {
        Builtin m = { 1.0, 2.0, 3.0, 4.0 };
        printv(m);
}

int b() {
        Union m = { 1.0, 2.0, 3.0, 4.0 };
        printv(m);
}

int c() {
        Struct m = { 1.0, 2.0, 3.0, 4.0 };
        printv(m);
}

当我编译这段代码时，我观察到以下行为:

打电话时printv()在 a()所有 4 个浮点数都被 %xmm0 传递.不会发生对内存的写入。

打电话时printv()在 b() 2 个浮点数正在通过 %xmm0和另外两个 float %xmm1 .为此，将 4 个浮点数加载 (.LC0) 到 %xmm2从那里到内存。之后，从内存中的同一个地方读取2个浮点数到%xmm0和其他 2 个浮点数加载 (.LC1) 到 %xmm1 .

我有点迷茫 c()实际上确实如此。

为什么是 a() , b()和 c()不同的？

这是 a() 的汇编输出:

        vmovaps .LC0(%rip), %xmm0
        call    _Z6printvU8__vectorf

b() 的汇编输出:

        vmovaps .LC0(%rip), %xmm2
        vmovaps %xmm2, (%rsp)
        vmovq   .LC1(%rip), %xmm1
        vmovq   (%rsp), %xmm0
        call    _Z6printv5Union

以及 c() 的汇编输出:

         andq    $-32, %rsp
         subq    $32, %rsp
         vmovaps .LC0(%rip), %xmm0
         vmovaps %xmm0, (%rsp)
         vmovq   .LC2(%rip), %xmm0
         vmovq   8(%rsp), %xmm1
         call    _Z6printv6Struct

数据:

        .section        .rodata.cst16,"aM",@progbits,16
        .align 16
.LC0:
        .long   1065353216
        .long   1073741824
        .long   1077936128
        .long   1082130432
        .section        .rodata.cst8,"aM",@progbits,8
        .align 8
.LC1:
        .quad   4647714816524288000
        .align 8
.LC2:
        .quad   4611686019492741120

四方 4647714816524288000似乎无非就是花车 3.0和 4.0在相邻的长词中。

最佳答案

好问题，我不得不挖一点，因为我从来没有用过 SSE (在本例中为 SSE2)我自己。本质上，向量指令用于对 进行操作多个 存储在 中的值一 寄存器，即 XMM(0-7) 寄存器。在 C 中，数据类型 float 使用 IEEE 754因此它的长度是 32 位。使用四个浮点数将产生一个长度为 128 位的向量，它正好是 XMM(0-7) 寄存器的长度。现在 SSE 提供的寄存器如下所示:

SSE (avx-128):                         |----------------|name: XMM0; size: 128bit
SSE (avx-256):        |----------------|----------------|name: YMM0; size: 256bit

在您的第一种情况下 a()您将 SIMD 向量化与

typedef float Builtin __attribute__ ((vector_size (16)));

这允许您将整个向量一次移入 XMM0 寄存器。现在在你的第二种情况 b()你使用工会。但是因为您没有将 .LC0 加载到与 Union m.b = { 1.0, 2.0, 3.0, 4.0 }; 的联合中数据不被识别为矢量化。这会导致以下行为:

来自 .LC0 的数据加载到 XMM2 中:

 vmovaps .LC0(%rip), %xmm2

但是因为您的数据可以解释为结构或作为矢量化，数据必须分成两个 64 位块，它们仍然必须在 XMM(0-7) 寄存器中，因为它可以被视为矢量化，但它必须最大 64 位长才能传输到一个寄存器(它只有 64 位宽，如果将 128 位传输到它会溢出；数据丢失)，因为数据也可以被视为一个结构。这是在下面完成的。

XMM2 中的矢量化加载到内存中

    vmovaps %xmm2, (%rsp)

现在是矢量化的高 64 位(位 64-127)，即浮点数 3.0和 4.0移动(vmovq 移动四字，即 64 位)到 XMM1

    vmovq   .LC1(%rip), %xmm1

最后是矢量化的低 64 位(位 0-63)，即浮点数 1.0和 2.0从内存移动到 XMM0

    vmovq   (%rsp), %xmm0

现在您在单独的 XMM(0-7) 寄存器中拥有 128 位向量的上部和下部。

现在以防万一 c()我也不太确定，但就是这样。首先 %rsp 与 32 位地址对齐，然后减去 32 字节以将数据存储在堆栈上(这将再次与 32 位地址对齐)这是通过

     andq    $-32, %rsp
     subq    $32, %rsp

现在这次矢量化被加载到 XMM0 中，然后用

     vmovaps .LC0(%rip), %xmm0
     vmovaps %xmm0, (%rsp)

最后向量化的高 64 位存储在 XMM0 中，低 64 位存储在 XMM1 寄存器中

     vmovq   .LC2(%rip), %xmm0
     vmovq   8(%rsp), %xmm1

在所有三种情况下，矢量化的处理方式不同。希望这可以帮助。

关于gcc - GCC 内置向量化类型和 C 数组之间有什么区别？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16618998/

24

4

0

文章推荐： asp.net - C# - 一次向 AS400 插入多条记录

文章推荐： Magento 使用 getChildHtml 调用 block

文章推荐： Android:渐变绘制的百分比？

文章推荐： oozie - Oozie HDFS 操作可以使用文件模式或 glob 吗？

c++ int 数组，值为 2 维 int 数组(3d 数组)
我正在尝试创建一个包含 int[][] 项的数组即 int version0Indexes[][4] = { {1,2,3,4}, {5,6,7,8} }; int version1Indexes[
Java 数组[i]++ 与++数组[i]
我有一个整数数组: private int array[]; 如果我还有一个名为 add 的方法，那么以下有什么区别: public void add(int value) { array[va
JavaScript 数组 + 数组 = 字符串？
当您尝试在 JavaScript 中将一个数组添加到另一个数组时，它会将其转换为一个字符串。通常，当以另一种语言执行此操作时，列表会合并。 JavaScript [1, 2] + [3, 4] = "
数组
根据我正在阅读的教程，如果您想创建一个包含 5 列和 3 行的表格来表示这样的数据... 45 4 34 99 56 3 23 99 43 2 1 1 0 43 67 ...它说你可以使用下
数组
我通常使用 python 编写脚本/程序，但最近开始使用 JavaScript 进行编程，并且在使用数组时遇到了一些问题。在 python 中，当我创建一个数组并使用 for x in y 时，我得
数组 toString() 中的 javascript 数组
我有一个这样的数组: temp = [ 'data1', ['data1_a','data1_b'], ['data2_a','data2_b','data2_c'] ]; // 我想使用 toStr
php - 如何将秒表结果(数组)推送到第一个表结果(数组)
rent_property (table name) id fullName propertyName 1 A House Name1 2 B
C++ 数组 [索引] 与索引 [数组]
这个问题在这里已经有了答案: 关闭13年前。 Possible Duplicate: In C arrays why is this true? a[5] == 5[a] array[index] 和
excel - 将用户名(数组)与电子邮件(数组)匹配
使用 Excel 2013。经过多年的寻找和适应，我的第一篇文章。我正在尝试将当前 App 用户(即“John Smith”)与他的电子邮件地址“jsmith@work.com”进行匹配。使用两个
r - 3D 数组 -> 应用 -> 3D 数组
当仅在一个边距上操作时，apply 似乎不会重新组装 3D 数组。考虑: arr 1)，但对我来说仍然很奇怪，如果一个函数返回一个具有尺寸的对象，那么它们基本上会被忽略。最佳答案这是一个不太理
javascript - php 数组(数组)到 javascript
我有一个包含 GPS 坐标的 MySQL 数据库。这是我检索坐标的部分 PHP 代码； $sql = "SELECT lat, lon FROM gps_data"; $stmt=$db->query
python - 查找最后一个非零元素 3D 数组 - numpy 数组
我需要找到一种方法来执行这个操作，我有一个形状数组 [批量大小, 150, 1] 代表 batch_size 整数序列，每个序列有 150 个元素长，但在每个序列中都有很多添加的零，以使所有序列具有相
android - 如何在json中访问对象>数组>对象>数组>对象？
我必须通过 url 中的 json 获取文本。层次结构如下: 对象>数组>对象>数组>对象。我想用这段代码获取文本。但是我收到错误 :org.json.JSONException: No valu
cocoa - NSMutable NSArray 数组 - 如何避免所有这些行并使用维度或 3D 数组？
enter code here- (void)viewDidLoad { NSMutableArray *imageViewArray= [[NSMutableArray alloc] init];
java - 流式传输 2d 数组、修剪值并收集回 2d 数组
知道如何对二维字符串数组执行修剪操作，例如使用 Java 流 API 进行 3x3 并将其收集回相同维度的 3x3 数组？重点是避免使用显式的 for 循环。当前的解决方案只是简单地执行一个 fo
使用嵌套循环的 Java Union 数组 2 int 数组
已关闭。此问题需要 debugging details 。目前不接受答案。编辑问题以包含 desired behavior, a specific problem or error, and the
Jquery 与 JSON 数组 - 转换为 Javascript 数组
我有来自 ASP.NET Web 服务的以下 XML 输出: 1710 1711 1712 1713
javascript - 更新嵌套数组和对象中的对象。对象-->数组-->对象-->数组--> "object"
如果我有一个对象todo作为您状态的一部分，并且该对象包含数组列表，则列表内部有对象，在这些对象内部还有另一个数组listItems。如何更新数组 listItems 中 id 为“poi098”的对
c# - 如何在一个字节中转换 bool 数组，然后再转换回 bool 数组
我想将最大长度为 8 的 bool 数组打包成一个字节，通过网络发送它，然后将其解压回 bool 数组。已经在这里尝试了一些解决方案，但没有用。我正在使用单声道。我制作了 BitArray，然后尝试
c# - 将 char 数组/字符串转换为 bool 数组
我们的数据库中有这个字段指示一周中的每一天的真/假标志，如下所示:'1111110' 我需要将此值转换为 boolean 数组。为此，我编写了以下代码: char[] freqs = weekday

首页

博学

6Ren·AI

商城

gcc - GCC 内置向量化类型和 C 数组之间有什么区别？