c++ - 如何编写可移植的 simd 代码以实现复杂的乘法归约-6ren

c++ - 如何编写可移植的 simd 代码以实现复杂的乘法归约

转载作者：IT老高更新时间：2023-10-28 12:51:53

25

4

我想编写快速 simd 代码来计算复杂数组的乘法归约。在标准 C 中，这是:

#include <complex.h>
complex float f(complex float x[], int n ) {
   complex float p = 1.0;
   for (int i = 0; i < n; i++)
      p *= x[i];
   return p;
}

n 最多为 50。

Gcc 不能自动矢量化复数乘法，但是，我很乐意假设 gcc 编译器，如果我知道我想以 sse3 为目标，我可以关注 How to enable sse3 autovectorization in gcc并写:

typedef float v4sf __attribute__ ((vector_size (16)));
typedef union {
  v4sf v;
  float e[4];
} float4
typedef struct {
  float4 x;
  float4 y;
} complex4;
static complex4 complex4_mul(complex4 a, complex4 b) {
  return (complex4){a.x.v*b.x.v -a.y.v*b.y.v, a.y.v*b.x.v + a.x.v*b.y.v};
}
complex4 f4(complex4 x[], int n) {
  v4sf one = {1,1,1,1};
  complex4 p = {one,one};
  for (int i = 0; i < n; i++) p = complex4_mul(p, x[i]);
  return p;
}

这确实可以使用 gcc 生成快速矢量化汇编代码。虽然您仍然需要将输入填充为 4 的倍数。您得到的程序集是:

.L3:
    vmovaps xmm0, XMMWORD PTR 16[rsi]
    add     rsi, 32
    vmulps  xmm1, xmm0, xmm2
    vmulps  xmm0, xmm0, xmm3
    vfmsubps        xmm1, xmm3, XMMWORD PTR -32[rsi], xmm1
    vmovaps xmm3, xmm1
    vfmaddps        xmm2, xmm2, XMMWORD PTR -32[rsi], xmm0
    cmp     rdx, rsi
    jne     .L3

但是，它是为精确的 simd 指令集而设计的，对于需要更改代码的 avx2 或 avx512 来说不是最佳的。

How can you write C or C++ code for which gcc will produce optimal code when compiled for any of sse, avx2 or avx512? That is, do you always have to write separate functions by hand for each different width of SIMD register?

Are there any open source libraries that make this easier?

最佳答案

这是一个使用 Eigen library 的示例:

#include <Eigen/Core>
std::complex<float> f(const std::complex<float> *x, int n)
{
    return Eigen::VectorXcf::Map(x, n).prod();
}

如果您使用 clang 或 g++ 编译它并启用 sse 或 avx(和 -O2)，您应该会得到相当不错的机器代码。它也适用于其他一些架构，如 Altivec 或 NEON。如果您知道 x 的第一个条目已对齐，您可以使用 MapAligned而不是 Map .

如果您在编译时碰巧知道 vector 的大小，您会得到更好的代码:

template<int n>
std::complex<float> f(const std::complex<float> *x)
{
    return Eigen::Matrix<std::complex<float>, n, 1> >::MapAligned(x).prod();
}

注意:上面的函数直接对应函数f的OP。但是，正如@PeterCordes 指出的那样，存储交错的复数通常是不好的，因为这将需要大量的洗牌来进行乘法运算。相反，应该以一种可以一次直接加载一个数据包的方式存储实部和虚部。

编辑/附录:要实现像复数乘法这样的数组结构，您实际上可以编写如下代码:

typedef Eigen::Array<float, 8, 1> v8sf; // Eigen::Array allows element-wise standard operations
typedef std::complex<v8sf> complex8;
complex8 prod(const complex8& a, const complex8& b)
{
    return a*b;
}

或更通用(使用 C++11):

template<int size, typename Scalar = float> using complexX = std::complex<Eigen::Array<Scalar, size, 1> >;

template<int size>
complexX<size> prod(const complexX<size>& a, const complexX<size>& b)
{
    return a*b;
}

当使用 -mavx -O2 编译时，这会编译成这样的东西(使用 g++-5.4):

    vmovaps 32(%rsi), %ymm1
    movq    %rdi, %rax
    vmovaps (%rsi), %ymm0
    vmovaps 32(%rdi), %ymm3
    vmovaps (%rdi), %ymm4
    vmulps  %ymm0, %ymm3, %ymm2
    vmulps  %ymm4, %ymm1, %ymm5
    vmulps  %ymm4, %ymm0, %ymm0
    vmulps  %ymm3, %ymm1, %ymm1
    vaddps  %ymm5, %ymm2, %ymm2
    vsubps  %ymm1, %ymm0, %ymm0
    vmovaps %ymm2, 32(%rdi)
    vmovaps %ymm0, (%rdi)
    vzeroupper
    ret

由于对我来说不是很明显的原因，这实际上隐藏在由实际方法调用的方法中，它只是在一些内存中移动——我不知道为什么 Eigen/gcc 不假设参数已经正确对齐。如果我用 clang 3.8.0 编译相同(和相同的参数)，它被编译为:

    vmovaps (%rsi), %ymm0
    vmovaps %ymm0, (%rdi)
    vmovaps 32(%rsi), %ymm0
    vmovaps %ymm0, 32(%rdi)
    vmovaps (%rdi), %ymm1
    vmovaps (%rdx), %ymm2
    vmovaps 32(%rdx), %ymm3
    vmulps  %ymm2, %ymm1, %ymm4
    vmulps  %ymm3, %ymm0, %ymm5
    vsubps  %ymm5, %ymm4, %ymm4
    vmulps  %ymm3, %ymm1, %ymm1
    vmulps  %ymm0, %ymm2, %ymm0
    vaddps  %ymm1, %ymm0, %ymm0
    vmovaps %ymm0, 32(%rdi)
    vmovaps %ymm4, (%rdi)
    movq    %rdi, %rax
    vzeroupper
    retq

同样，一开始的内存运动很奇怪，但至少那是矢量化的。但是，对于 gcc 和 clang，当在循环中调用时，它会被优化掉:

complex8 f8(complex8 x[], int n) {
    if(n==0)
        return complex8(v8sf::Ones(),v8sf::Zero()); // I guess you want p = 1 + 0*i at the beginning?

    complex8 p = x[0];
    for (int i = 1; i < n; i++) p = prod(p, x[i]);
    return p;
}

这里的不同之处在于，clang 会将外部循环展开为每个循环 2 次乘法。另一方面，gcc 在使用 -mfma 编译时将使用 fused-multiply-add 指令。 .

f8函数当然也可以推广到任意维度:

template<int size>
complexX<size> fX(complexX<size> x[], int n) {
    using S= typename complexX<size>::value_type;
    if(n==0)
        return complexX<size>(S::Ones(),S::Zero());

    complexX<size> p = x[0];
    for (int i = 1; i < n; i++) p *=x[i];
    return p;
}

为了减少 complexX<N>到单个 std::complex可以使用以下函数:

// only works for powers of two
template<int size> EIGEN_ALWAYS_INLINE
std::complex<float> redux(const complexX<size>& var) {
    complexX<size/2> a(var.real().template head<size/2>(), var.imag().template head<size/2>());
    complexX<size/2> b(var.real().template tail<size/2>(), var.imag().template tail<size/2>());
    return redux(a*b);
}
template<> EIGEN_ALWAYS_INLINE
std::complex<float> redux(const complexX<1>& var) {
    return std::complex<float>(var.real()[0], var.imag()[0]);
}

但是，根据我使用的是 clang 还是 g++，我得到的汇编程序输出完全不同。总体而言，g++ 倾向于无法内联加载输入参数，并且 clang 无法使用 FMA 操作(YMMV ...)本质上，无论如何您都需要检查生成的汇编代码。更重要的是，您应该对代码进行基准测试(不确定该例程对您的整体问题有多大影响)。

另外，我想指出 Eigen 实际上是一个线性代数库。利用它来生成纯可移植 SIMD 代码并不是真正的设计目的。

关于c++ - 如何编写可移植的 simd 代码以实现复杂的乘法归约，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/45298855/

25

4

0

文章推荐： Android:我无法拥有 ViewPager WRAP_CONTENT

文章推荐： SQL to JSON - SQL 2016 中的对象数组到值数组

文章推荐： android - 具有背景颜色的按钮的 Material 效果

文章推荐： ruby-on-rails - rails : include related object in JSON output

c - 如何从客户端(用 C 编写)接收 int 数组到服务器(用 python 编写)
我只想从客户端向服务器发送数组 adc_array=[w, x, y, z]。下面是客户端代码，而我的服务器是在只接受 json 的 python 中。编译代码时我没有收到任何错误，但收到 2 条警告
node.js - 如何连接我的移动应用程序(用 lua 编写)和我的服务器(用 node.js 编写)？
我是 lua 和 Node js 的新手，我正在尝试将我正在开发的移动应用程序连接到服务器。问题是它连接到服务器，但我尝试传递的数据丢失或无法到达服务器。对我正在做的事情有什么问题有什么想法吗？ th
Haskell 编写 myLength
我在这个页面上工作 http://www.haskell.org/haskellwiki/99_questions/Solutions/4 我理解每个函数的含义，看到一个函数可以像这样以多种方式定义，
Java CSV 编写
我目前正在尝试将数据写入 excel 以生成报告。我可以将数据写入 csv 文件，但它不会按照我想要的顺序出现在 excel 中。我需要数据在每列的最佳和最差适应性下打印，而不是全部打印在平均值下。这
Java - 编写、读取和修改带参数的字符串
所以，我正在做一个项目，现在我有一个问题，所以我想得到你的帮助:) 首先，我已经知道如何编写和读取 .txt 文件，但我想要的不仅仅是 x.hasNext()。我想知道如何像 .ini 那样编写、读
javascript - 编写 For 循环来计算阶乘
我正在尝试编写一个函数，该函数将返回作为输入给出的任何数字的阶乘。现在，我的代码绝对是一团糟。请帮忙。 function factorialize(num) { for (var i=num, i
Javascript，编写 if 条件的更好方法
这个问题已经有答案了: Check variable equality against a list of values (16 个回答) 已关闭 4 年前。有没有一种简洁或更好的方法来编写这个条件
aframe - 编写 A 型框架的测试规范
我对 VR 完全陌生，正在 AFrame 中为一个类(class)项目开发 VR 太空射击游戏，并且想知道 AFrame 中是否有 TDD 的任何文档/标准。有人能指出我正确的方向吗？最佳答案几乎
javascript - 编写 for 循环以使用数组创建多个方法
我正在尝试创建一个 for 循环，它将重现以下功能代码块，但以一种更具吸引力的方式。这是与 Soundcould 小部件 API 实现一起使用的 here on stackoverflow $(doc
Java 编写/编辑属性文件
我有一个非常令人困惑的问题。我正在尝试更改属性文件中的属性，但它只是没有更改... 这是代码: package config; import java.io.FileNotFoundException
aframe - 编写 A 型框架的测试规范
我对 VR 完全陌生，正在 AFrame 中为一个类(class)项目开发 VR 太空射击游戏，并且想知道 AFrame 中是否有 TDD 的任何文档/标准。有人能指出我正确的方向吗？最佳答案几乎
.net - 编写.NET互操作调试器
我正在开发一个用户模式(Ring3)代码级调试器。它还应支持.NET可执行文件的本机(x86)调试。基本上，我需要执行以下操作: 1).NET在隐身模式下加载某些模块，而没有LOAD_DLL_DEBU
python - 编写 if 语句以避免某些列表项的更好方法是什么？
我有一个列表，我知道有些项目是不必要打印的，我正在尝试通过 if 语句来做到这一点...但是它变得非常复杂，所以有没有什么方法可以在 if 语句中包含多个索引而无需打印重写整个声明。看起来像这样的东
c# - 编写 if 语句是否会以不同方式影响程序的速度和效率？
我很好奇以不同方式编写 if 语句是否会影响程序的速度和效率。所以，例如写一个这样的: bool isActive = true; bool isResponding = false; if (isA
javascript - 编写 if 语句的新方法
我在搜索网站的源代码时找到了一种以另一种方式(我认为)编写 if 语句的方法。代替: if(a)b; 或: a?b:''; 我读了: !a||b; 第三种方式和前两种方式一样吗？如果是，为什么我们要
Java + 编写 XML
我的数据采用以下格式(HashMap的列表) {TeamName=India, Name=Sachin, Score=170} {TeamName=India, Name=Sehwag, Score=
mysql - 编写 HAVING 条件的最有效方法
我目前正在完成 More JOIN operations sqlzoo 的教程，遇到了下面的代码作为#12 的答案: SELECT yr,COUNT(title) FROM movie JOIN ca
ruby - 编写 && 检查列表的更好方法？
我正试图找到一种更好的方法来编写这段代码: def down_up(array, player) 7.downto(3).each do |row| 8.times do |col
由 C++ 编写
出于某种原因，我的缓冲区中充满了乱码，我不确定为什么。我什至用十六进制编辑器检查了我的文件，以验证我的字符是否以 2 字节的 unicode 格式保存。我不确定出了什么问题。 [打开文件] fseek
c# - 编写 FizzBuzz
阅读编码恐怖片时，我刚刚又遇到了 FizzBuzz。原帖在这里:Coding Horror: Why Can't Programmers.. Program? 对于那些不知道的人:FizzBu

首页

博学

6Ren·AI

商城

c++ - 如何编写可移植的 simd 代码以实现复杂的乘法归约