x86 - 我可以使用 LLVM jit 生成 AVX 矢量化代码吗？-6ren

x86 - 我可以使用 LLVM jit 生成 AVX 矢量化代码吗？

转载作者：行者123 更新时间：2023-12-04 15:22:48

26

4

我知道我可以在 EngineBuilder 中设置 mcpu 和 mattr 来生成矢量化代码。
但我发现铿锵前线必须涉及使用-mavx 的AVX。否则生成的程序集仅使用 xmm 寄存器。

有没有办法让 LLVM 知道可以在不涉及前端的情况下将 8 个浮点数放入 AVX 寄存器中？

我的测试代码只是向量添加:

float a[N], b[N];
float c[N];
// initialize a and b
for (int i = 0; i < N; ++i)
    c[i] = a[i] + b[i];

最佳答案

TL;DR : 是的。您只需调用opt并告诉它向量化你的代码。

你绝对可以在没有 clang 的情况下做到这一点。矢量化器都是关于 LLVM IR 的，它们并不在 Clang 中。

我通过使用没有优化的 clang 从您的示例中得到了这个 IR(是的，我作弊了，然后注释了一两个):(数据布局和三元组很重要!)

target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.9.0"

define float* @f(i32 %N, float* nocapture readonly %a, float* nocapture readonly %b, float* %c) {
entry:
  %cmp10 = icmp sgt i32 %N, 0   ; check for early exit
  br i1 %cmp10, label %for.body, label %for.end

for.body:                                         ; preds = %entry, %for.body
  %indvars.iv = phi i64 [ %indvars.iv.next, %for.body ], [ 0, %entry ]

  %arrayidx = getelementptr inbounds float* %a, i64 %indvars.iv
  %0 = load float* %arrayidx, align 4     ; %0 = a[i]
  %arrayidx2 = getelementptr inbounds float* %b, i64 %indvars.iv
  %1 = load float* %arrayidx2, align 4    ; %1 = a[i]

  %add = fadd float %0, %1                ; %add = %0 + %1

  %arrayidx4 = getelementptr inbounds float* %c, i64 %indvars.iv
  store float %add, float* %arrayidx4, align 4   ; c[i] = %add

  %indvars.iv.next = add nuw nsw i64 %indvars.iv, 1
  %lftr.wideiv = trunc i64 %indvars.iv.next to i32
  %exitcond = icmp eq i32 %lftr.wideiv, %N       ; test for loop exit
  br i1 %exitcond, label %for.end, label %for.body

for.end:                                          ; preds = %for.body, %entry
  ret float* %c
}

现在你想对代码进行矢量化。然后，让我们通过循环矢量化器运行它。

opt a.ll -S -march=x86-64 -mcpu=btver2 -loop-vectorize

(我用 -S 运行它以获取控制台的输出)

现在我们用一个巨大的 vector.body 对 IR 进行了矢量化处理。，以及一些检查、预标题和额外的簿记代码。您将在文件中间看到:

  %171 = getelementptr inbounds float* %b, i64 %98
  %172 = insertelement <8 x float*> %170, float* %171, i32 7
  %173 = getelementptr float* %109, i32 0
  %174 = bitcast float* %173 to <8 x float>*
  %wide.load18 = load <8 x float>* %174, align 4
  %175 = getelementptr float* %109, i32 8
  %176 = bitcast float* %175 to <8 x float>*
  %wide.load19 = load <8 x float>* %176, align 4
  %177 = getelementptr float* %109, i32 16
  %178 = bitcast float* %177 to <8 x float>*
  %wide.load20 = load <8 x float>* %178, align 4
  %179 = getelementptr float* %109, i32 24
  %180 = bitcast float* %179 to <8 x float>*
  %wide.load21 = load <8 x float>* %180, align 4
  %181 = fadd <8 x float> %wide.load, %wide.load18
  %182 = fadd <8 x float> %wide.load15, %wide.load19
  %183 = fadd <8 x float> %wide.load16, %wide.load20
  %184 = fadd <8 x float> %wide.load17, %wide.load21
  %185 = getelementptr inbounds float* %c, i64 %5
  %186 = insertelement <8 x float*> undef, float* %185, i32 0

这有点复杂，但大多数浮点加法( fadd )都在那里，并且只在向量上完成。让我们让它更简单，并使用 -O2 运行其他优化。或 -O3 .通过删除和/或折叠不需要或不盈利的部分，这将使 IR 变得更小、更简单。

opt a.ll -S -march=x86-64 -mcpu=btver2 -loop-vectorize -O3

嗯……因为我们现在已经有了 IR，它已经在向量上起作用了，我们只需要发射它。让我们迈出最后一步，调用 llc :

opt a.ll -S -march=x86-64 -mcpu=core-avx2 -loop-vectorize -O3 | llc -mcpu=core-avx2

查看反汇编，你有一个紧密的内部循环(如果你和我的名字相同，这应该是标签 LBB0_5 )，还有一堆记账代码。

您的代码现在已矢量化。

关于x86 - 我可以使用 LLVM jit 生成 AVX 矢量化代码吗？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/22548397/

26

4

0

文章推荐： code-coverage - 工作服 github 集成(与 qunit、istanbul、grunt)

文章推荐： R 从 SpatialPointsDataFrame 到 SpatialLines

文章推荐： nlp - 从非结构化文本中提取信息

jit - 动态语言是如何 JITted 的？
在动态语言中，动态类型代码 JIT 是如何编译成机器码的？更具体地说:编译器是否会在某个时候推断类型？还是在这些情况下严格解释？例如，如果我有类似下面的伪代码 def func(arg) i
jit - SPARC 体系结构是否仍然与高端服务器上的 JIT 编译器目标相关？
X86 和 AMD64 是许多计算环境(桌面、服务器和 super 计算机)最重要的架构。显然，JIT 编译器应该同时支持它们才能获得认可。直到最近，SPARC 架构才是编译器合乎逻辑的下一步，特别
jit - 将 JIT 转换为 EXE？
既然有如此多的 JIT 实现，每个 JIT 都会发出 native 代码。那么为什么没有人制作像 JIT2EXE 这样的工具来将 native 代码保存为 native 可执行文件呢？最佳答案这个
java - 为什么有 JIT 的解释器比没有 JIT 的解释器产生更快的代码？
JIT 编译器将字节码编译成机器码的概念我还是不太清楚。我想知道为什么它比非 JIT 解释器产生更快的代码。有人可以给我一个很好的例子来说明这个过程是如何完成的吗？最佳答案假设您有一个需要执行一百
pytorch - torchscript中的torch.jit.trace和torch.jit.script有什么区别？
Torchscript 提供了 torch.jit.trace 和 torch.jit.script 将 pytorch 代码从 Eager 模式转换为脚本模型。从文档中，我可以理解 torch.ji
jvm - 不要同时启用 JIT 和非 JIT 的解释器最终生成机器代码
好的，我已经阅读了一些关于 JIT 和非 JIT 启用解释器之间差异的讨论，以及为什么 JIT 通常会提高性能。但是，我的问题是: 最终，不支持 JIT 的解释器是否必须像 JIT 编译器那样将字节
java - 有没有一种方法可以在没有 JIT 开销的情况下实现 JIT 性能？
有没有办法在消除 JIT 开销的同时实现 JIT 性能？最好通过将类文件编译为 native 镜像。我研究过GCJ，但即使对于简单的程序，GCJ输出的性能也比Java JIT差很多。最佳答案您可
Java JIT 编译器优化 - JIT 在 volatile 变量值缓存方面是否一致？
我试图更好地理解 JIT 编译器在 volatile 变量值缓存方面如何为 java 工作。考虑这个问题中提出的例子: Infinite loop problem with while loop an
python - 从 numba jitted 函数调用非 jitted 函数
我的代码是这样的: @jit(nopython=True) def sum_fn(arg1, arg2, ...argn): ..... for i in xrange(len(arg
jit - 是否可以 jit 使用 jax.numpy.unique 的函数？
以下代码无效: def get_unique(arr): return jnp.unique(arr) get_unique = jit(get_unique) get_unique(jnp.
python - 是否可以调用间接调用另一个 cuda.jit 函数的 cuda.jit 函数？
我需要能够调用一个 GPU 函数，该函数本身间接调用另一个 GPU 函数: from numba import cuda, jit import numpy as np # GPU function
cuda - @cuda.jit 和 @jit(target ='gpu') 的区别
我有一个关于使用 Continuum 的 Accelerate 和 numba 包中的 Python CUDA 库的问题。正在使用装饰器@jit与 target = gpu同 @cuda.jit ?
java - JIT 去优化，原因 ="constraint"。为什么 JIT 会去优化方法？
有人可以指出我的方向，这可能会让我明白为什么 JIT 会取消优化我的循环？ (OSR)。看起来它被 C1 编译一次，然后多次取消优化(我可以看到数十或数百个以开头的日志) 这是包含该重要循环的类:
java - 带 JIT 和不带 JIT 的 JVM 之间的区别
我引用了Oracle的以下文档: http://docs.oracle.com/cd/E13150_01/jrockit_jvm/jrockit/geninfo/diagnos/underst_jit
python - pytorch torch.jit.trace 返回函数而不是 torch.jit.ScriptModule
我需要在 C++ 中运行预训练的 pytorch 神经网络模型(在 python 中训练)来进行预测。为此，我按照此处给出的有关如何在 C++ 中加载 pytorch 模型的说明进行操作:https
python - 如何使 numba @jit 使用所有 cpu 内核(并行化 numba @jit)
我正在使用 numbas @jit 装饰器在 python 中添加两个 numpy 数组。如果我使用 @jit 与 python 相比，性能是如此之高。然而，即使我传入 @numba.jit(nop
python - import Numba @jit meet warning message and @jit(nopython=True) 将显示错误
我是Python新手。我编写了一些代码尝试将图片混合为新图片。我完成了，但是浪费了太多时间。所以我尝试使用 Numba 让代码在我的 GPU 上运行。但遇到一些警告和错误 os Ubuntu 1
php - PHP 7 中的 "Allocation of JIT memory failed, PCRE JIT will be disabled"警告
我正在将我的网站从安装在共享网络托管帐户(在 DreamHost)上的 PHP v.5 转换为在 PHP 7.3.11 上运行。转换后，我开始注意到偶尔会收到以下警告: Warning: preg_m
jit - 及时编译总是更快？
在 Stack Overflow 上向所有编译器设计者致以问候。我目前正在从事一个项目，该项目的重点是开发一种用于高性能计算的新脚本语言。源代码首先被编译成字节码表示。字节码然后由运行时加载，它对其
第四次实现 JIT 写保护？
我相信 Apple 已禁止在 ARM64 架构上同时写入和执行内存，请参阅: 参见 mmap() RWX page on MacOS (ARM64 architecture)? 这使得像 jonesf

首页

博学

6Ren·AI

商城

x86 - 我可以使用 LLVM jit 生成 AVX 矢量化代码吗？