gcc - 有没有更有效的方法将4个连续的double广播到4个YMM寄存器中？-6ren

gcc - 有没有更有效的方法将4个连续的double广播到4个YMM寄存器中？

转载作者：行者123 更新时间：2023-11-30 16:57:50

31

4

在一段类似于（但不完全）矩阵乘法的C ++代码中，我将4个连续的double加载到4个YMM寄存器中，如下所示：

# a is a 64-byte aligned array of double
__m256d b0 = _mm256_broadcast_sd(&b[4*k+0]);
__m256d b1 = _mm256_broadcast_sd(&b[4*k+1]);
__m256d b2 = _mm256_broadcast_sd(&b[4*k+2]);
__m256d b3 = _mm256_broadcast_sd(&b[4*k+3]);

我在Sandy Bridge机器上使用gcc-4.8.2编译了代码。硬件事件计数器（Intel PMU）建议CPU实际上从L1缓存中发出4个单独的负载。尽管此时我不受L1延迟或带宽的限制，但是我很感兴趣地想知道是否有一种方法可以用一个256位负载（或两个128位负载）加载4个double，然后将它们洗牌到4个YMM寄存器。我浏览了 Intel Intrinsics Guide，但找不到找到所需的改组方法。那可能吗？

（如果CPU不能合并4个连续负载的前提实际上是错误的，请告诉我。）

最佳答案

在我的matrix multiplication code中，每个内核代码只需要使用一次广播，但是如果您真的想在一条指令中加载四个双精度数，然后将它们广播到四个寄存器，您可以这样做

#include <stdio.h>
#include <immintrin.h>

int main() {
    double in[] = {1,2,3,4};
    double out[4];
    __m256d x4 = _mm256_loadu_pd(in);
    __m256d t1 = _mm256_permute2f128_pd(x4, x4, 0x0);
    __m256d t2 = _mm256_permute2f128_pd(x4, x4, 0x11);
    __m256d broad1 = _mm256_permute_pd(t1,0);
    __m256d broad2 = _mm256_permute_pd(t1,0xf);
    __m256d broad3 = _mm256_permute_pd(t2,0);
    __m256d broad4 = _mm256_permute_pd(t2,0xf);

    _mm256_storeu_pd(out,broad1);   
    printf("%f %f %f %f\n", out[0], out[1], out[2], out[3]);
    _mm256_storeu_pd(out,broad2);   
    printf("%f %f %f %f\n", out[0], out[1], out[2], out[3]);
    _mm256_storeu_pd(out,broad3);   
    printf("%f %f %f %f\n", out[0], out[1], out[2], out[3]);
    _mm256_storeu_pd(out,broad4);   
    printf("%f %f %f %f\n", out[0], out[1], out[2], out[3]);
}

编辑：这是基于Paul R的建议的另一个解决方案。

__m256 t1 = _mm256_broadcast_pd((__m128d*)&b[4*k+0]);
__m256 t2 = _mm256_broadcast_pd((__m128d*)&b[4*k+2]);
__m256d broad1 = _mm256_permute_pd(t1,0);
__m256d broad2 = _mm256_permute_pd(t1,0xf);
__m256d broad3 = _mm256_permute_pd(t2,0);
__m256d broad4 = _mm256_permute_pd(t2,0xf);

关于gcc - 有没有更有效的方法将4个连续的double广播到4个YMM寄存器中？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/39296632/

31

4

0

文章推荐： c# - 从 MVC View 调用方法不起作用

文章推荐： javascript - tabset 中的 AngularJS $scope 问题

文章推荐： c# - 根据数据库值预选列表框中的多个项目

文章推荐： c# - Moq 使用 ReturnsAsync 并修改 It.IsAny 输入参数

assembly - 字大小的 OUT 到字节 IO 寄存器？使用旧 VGA 代码中的指令设置序列 Controller 寄存器
我无法理解如何使用一些旧的 VGA 代码在这个示例中设置序列 Controller 寄存器: mov dx,SC_INDEX mov ax,0604h out dx,ax
assembly - 如何将 AVX512 寄存器 zmm26 中的 QuadWord 写入 rax 寄存器？
我希望对 zmm 0-31 寄存器集的四字元素执行整数算术运算并保留这些运算产生的进位位。看来这只有在通用寄存器集中处理数据时才有可能。因此，我想将信息从 zmm 0-31 寄存器之一复制到通用寄存
一文搞懂ARM64系列:寄存器
ARM 64中包含多种寄存器，下面介绍一些常见的寄存器。 1 通用寄存器 ARM 64包含31个64bit寄存器，记为X0~X30。每一个通用寄存器，它的低32bit都可以被访问，记为W0~W
09-寄存器
1.寄存器组合逻辑存在一个最大的缺点就是存在竞争与冒险,系统会产生不定态;使用时序逻辑电路就会极大的改善这种情况寄存器具有存储功能,一般是由D触发器构成,由时钟脉冲控制,每个D触发器能够
MIPS $gp 寄存器
使用 $gp 是否存在危险？注册以存储值？我想我的问题是 $gp 的真正功能是什么？它是否以某种方式在幕后调用，以便如果我使用它，事情可能会变得非常非常错误？最佳答案那么，$gp register
PHP:$_SESSION 寄存器
我遇到了这段代码的问题，我无法弄清楚问题出在哪里。所以当我运行这段代码时:if $row["count"] > 0 else块运行和 $_SESSION["error"]设置。当$row["coun
assembly - 如何找出逆向工程汇编中的第二个参数/寄存器？
所以我正在做二进制炸弹的变体。这就是阶段 0x0000000000401205 : sub $0x8,%rsp 0x0000000000401209 : cmp $0x3,
sql - 寄存器 0x104567911
我在一个名为 (EmployeeDetailKey - varchar(10)) 的字段中获得了一个值，其中包含顺序值，例如 00001, 00002, 00003.... 它位于 Employeed
java - 寄存器 0x104567911
我有一个要求，应该为每个调用的线程分配一个计数器变量。但我没有得到预期的结果，实际上计数器在线程中重复。我创建了一个虚拟表和一个过程来将计数器值插入到表中。无论如何，是否可以更改代码以便线程获得递增的
php - 寄存器 0x104567911
预期输出:需要打印第4季度的wage_amt +--------------+--------------+--------------+--------------+ | wages_amt_q1
javascript - 寄存器 0x104567911
如何匹配模式 abc_[someArbitaryStringHere]_xyz？为了澄清，我希望正则表达式能够匹配以下性质的字符串: abc_xyz、abc_asdfsdf_xyz、abc_32rw
css - 寄存器 0x104567911
从下拉列表(自定义)中选择一个值而不是常规下拉列表，它有很多下拉值我可以用代码选择第一个值 find('.selected', :text=>arg1,exact: false).click 但无法
c - 恢复用户堆栈/寄存器
这个问题不太可能帮助任何 future 的访问者；它只与一个小的地理区域、一个特定的时间点或一个非常狭窄的情况有关，这些情况并不普遍适用于互联网的全局受众。为了帮助使这个问题更广泛地适用，visit
python - 寄存器 0x104567911
我有 .csv 文件中的数据，它包含 2 列 x 轴和 y 轴。从 .csv 文件读取轴，然后使用拉伸(stretch)指数函数拟合数据，但显示错误。这里我给出示例数据以方便理解。我的函数是f(x
assembly - 为什么循环不递减 cx 寄存器？
我正在尝试使用以下汇编代码将磁盘扇区加载到内存中，但正如我在终端中使用一些 int 0x10 时发现的那样，它不起作用的原因是它陷入了无限循环。我以为循环会自动为我递减 cx 寄存器。下面是代码，其中
vim - 从终端命令行复制一行到 vim 寄存器
我正在尝试编写一个脚本，该脚本将在 vim 中打开一个文件并将其中的特定行复制到 vim 的寄存器之一中。当脚本再次运行时，它会决定再次打开文件，然后将 vim 寄存器中的值粘贴回。实际上，脚本应该在
assembly - 从内存中添加一个字节到 AX 寄存器
我目前正在尝试弄清楚如何将指针寄存器 SI 指向的内存中的第一个字节添加到 AX 寄存器的当前内容中。因此，如果 SI 包含某个地址，并且该地址在内存中的值是:00 和 01，我希望将 00 添加到
assembly - 将两个数字放入 EAX 寄存器
我试图将两个 16 位数字与以下 NASM 代码相乘: mov ax, [input1] mov bx, [input2] mul bx 前面代码的结果存储在 DX:AX 我试图使用来自单独库“pri
c - 从内联汇编修改 RIP 寄存器
我正在尝试修改 rip 寄存器(只是为了好玩)。 buffer 应该是内存地址，所以不知道为什么会得到Error: operand type mismatch for 'movq' #include
gcc - 在内联汇编中使用特定的 zmm 寄存器
我可以告诉gcc-style inline assembly把我的__m512i变量到特定 zmm注册，如 zmm31 ？最佳答案就像在根本没有特定寄存器约束的目标(如 ARM)上一样，使用 lo

首页

博学

6Ren·AI

商城

gcc - 有没有更有效的方法将4个连续的double广播到4个YMM寄存器中？