- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
考虑以下玩具示例,其中 A
是以列优先顺序存储的 n x 2
矩阵,我想计算它的列总和。 sum_0
只计算第一列的和,而 sum_1
也计算第二列。这实际上是一个人为的例子,因为基本上不需要为此任务定义两个函数(我可以编写一个带有双循环嵌套的函数,其中外部循环从 0
迭代到 j
).它是为了演示我在现实中遇到的模板问题而构建的。
/* "test.c" */
#include <stdlib.h>
// j can be 0 or 1
static inline void sum_template (size_t j, size_t n, double *A, double *c) {
if (n == 0) return;
size_t i;
double *a = A, *b = A + n;
double c0 = 0.0, c1 = 0.0;
#pragma omp simd reduction (+: c0, c1) aligned (a, b: 32)
for (i = 0; i < n; i++) {
c0 += a[i];
if (j > 0) c1 += b[i];
}
c[0] = c0;
if (j > 0) c[1] = c1;
}
#define macro_define_sum(FUN, j) \
void FUN (size_t n, double *A, double *c) { \
sum_template(j, n, A, c); \
}
macro_define_sum(sum_0, 0)
macro_define_sum(sum_1, 1)
如果我编译它
gcc -O2 -mavx test.c
GCC(例如最新的 8.2)在内联、常量传播和死代码消除之后,将针对函数 sum_0
( Check it on Godbolt ) 优化涉及 c1
的代码。
我喜欢这个技巧。通过编写单个模板函数并传入不同的配置参数,优化编译器可以生成不同的版本。它比复制和粘贴大部分代码并手动定义不同的函数版本要干净得多。
但是,如果我用 激活 OpenMP 4.0+ 就失去了这种便利
gcc -O2 -mavx -fopenmp test.c
sum_template
不再内联,也不再应用无用代码消除 ( Check it on Godbolt )。但是,如果我删除标志 -mavx
以使用 128 位 SIMD,编译器优化将按我预期的方式工作 (Check it on Godbolt)。那么这是一个错误吗?我在 x86-64 (Sandybridge) 上。
备注
使用 GCC 的自动矢量化 -ftree-vectorize -ffast-math
不会有这个问题 ( Check it on Godbolt )。但我希望使用 OpenMP,因为它允许跨不同编译器的可移植对齐编译指示。
背景
我为 R 包编写模块,需要跨平台和编译器移植。编写 R 扩展不需要 Makefile。当 R 在平台上构建时,它知道该平台上的默认编译器是什么,并配置一组默认编译标志。 R 没有自动矢量化标志,但它有 OpenMP 标志。这意味着使用 OpenMP SIMD 是在 R 包中使用 SIMD 的理想方式。参见 1和 2详细说明。
最佳答案
解决此问题的最简单方法是使用 __attribute__((always_inline))
或其他特定于编译器的覆盖。
#ifdef __GNUC__
#define ALWAYS_INLINE __attribute__((always_inline)) inline
#elif defined(_MSC_VER)
#define ALWAYS_INLINE __forceinline inline
#else
#define ALWAYS_INLINE inline // cross your fingers
#endif
ALWAYS_INLINE
static inline void sum_template (size_t j, size_t n, double *A, double *c) {
...
}
此外,不要忘记使用 -mtune=haswell
,而不仅仅是 -mavx
。这通常是个好主意。 (但是,有前途的对齐数据将阻止 gcc 的默认 -mavx256-split-unaligned-load
调整将 256 位负载拆分为 128 位 vmovupd
+ vinsertf128
,所以 this 函数的代码生成与 tune=haswell 没问题。但通常你希望 gcc 的这个能够自动向量化任何其他函数。
你真的不需要 static
和 inline
;如果编译器决定不内联它,它至少可以在编译单元之间共享相同的定义。
通常 gcc 根据函数大小试探法决定内联或不内联。但即使设置 -finline-limit=90000
也不会让 gcc 与您的 #pragma omp
( How do I force gcc to inline a function? ) 内联。我一直在猜测 gcc 没有意识到内联后的持续传播会简化条件,但 90000 个“伪指令”似乎很大。可能还有其他启发式方法。
可能 OpenMP 以不同的方式设置了一些每个函数的东西,如果它让它们内联到其他函数,可能会破坏优化器。使用 __attribute__((target("avx")))
阻止该函数内联到未使用 AVX 编译的函数中(因此您可以安全地进行运行时调度,而无需跨 <if(avx)
条件。)
OpenMP 做的一件事是常规自动矢量化无法做到的,即可以在不启用 -ffast-math
的情况下对缩减进行矢量化。
不幸的是,OpenMP 仍然懒得展开多个累加器或任何隐藏 FP 延迟的东西。 #pragma omp
是一个很好的提示,表明循环实际上很热并且值得花费代码大小,因此 gcc 应该真正做到这一点,即使没有 -fprofile-use
。
因此,特别是如果它在 L2 或 L1 缓存(或可能是 L3)中的热数据上运行,您应该采取一些措施来获得更好的吞吐量。
顺便说一句,对于 Haswell 上的 AVX,对齐通常不是什么大问题。但是对于 SKX 上的 AVX512,64 字节对齐在实践中确实更重要。例如,未对齐的数据可能会减速 20%,而不是几个 %。
(但在编译时 promise 对齐与实际在运行时对齐数据是不同的问题。两者都有帮助,但在编译时 promise 对齐会使 gcc7 和更早版本的代码更紧凑,或者在没有 AVX 的任何编译器上。)
关于c - 通过 OpenMP SIMD 进行的 256 位矢量化会阻止编译器的优化(比如函数内联)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/51152215/
我的问题由两部分组成。 我注意到使用 cc 编译器的 sparc(sun) 上的 memalign(block_size,bytes) 不检查字节是否为 2 的幂,这与使用 mvsc 编译器的 int
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 6 年前。
当我尝试在我的 gwt-maven Projekt 上进行 maven-install 时,我得到了这个错误: [ERROR] Failed to execute goal org.apache.ma
gcc 有一个选项 -s 来生成汇编源代码。 csc(MS C# 编译器)或 dmcs(mono C# 编译器)是否等价?我的意思是那些编译器是否提供了一个选项来生成可以读取而不是执行二进制文件的 I
我在 matlab simulink 中有一个模型。我把matlab安装在D盘了。当我运行模型时,出现以下错误: Unable to locate a C-compiler required by S
我非常喜欢 Visual Studio 2012,因为 GUI 非常快速和灵活。问题是我需要 VS2010 的 VC++-Compiler。在 VS 2012 中设置旧的编译器、SDK 有什么可能吗?
就目前情况而言,这个问题不太适合我们的问答形式。我们希望答案得到事实、引用资料或专业知识的支持,但这个问题可能会引发辩论、争论、民意调查或扩展讨论。如果您觉得这个问题可以改进并可能重新开放,visit
我正在为类似 C 的语言开发编译器,但在语义分析和代码生成阶段遇到了一些困难。我的问题如下:1) 对于 if 语句,语法如下: if (expression) then statement1; sta
我想了解 php 编译器/解释器的工作原理。 我试图下载 php 源代码并试图了解它是如何工作的。我找不到合适的文档。如果有人可以阐明制作 php 编译器的模块以及 apache 服务器如何使用 ph
我有一些关于 python 的问题 为什么没有 python 编译器来创建本地代码?我找到了 py2exe 等,但它们只是随附了一个 python 解释器,因此,它又是执行代码的解释器。 是否无法创建
本文将是JVM 性能优化系列的第二篇文章(第一篇:传送门),Java 编译器将是本文讨论的核心内容。 本文中,作者(Eva Andreasson)首先介绍了不同种类的编译器,并对客户端编译,服务器
在 *nix 之类的系统或适当的工具包下是否有任何用于 ActionScript 3 的编译器来处理 Flash? 最佳答案 Flex SDK编译器 — mxmlc — 还将编译普通的 ActionS
我正在做一个C项目。但是其他人告诉我,由于没有C++编译器,所以无法构建它。 我不知道如何禁用C++的检测。这该怎么做? 最佳答案 检测C和C++工具链是CMake的默认行为。要禁用此行为,您需要手动
我正在寻找可以嵌入到我的程序中的 JIT 编译器或小型编译器库。我打算用它来编译动态生成的执行复数运算的代码。生成的代码在结构上非常简单:没有循环,没有条件,但它们可能很长(由 GCC 编译时只有几
多年来,我一直在 VB.NET 中使用 DEBUG 编译器常量将消息写入控制台。我也一直在以类似的方式使用 System.Diagnostics.Debug.Write。我一直认为,当 RELEASE
我了解编译器的前端和后端结构。但是,我不确定为什么编译器经常分为前端和后端。我相信有很多原因,你能给我几个吗?因为,大多数书籍/网站会告诉您它们是什么,但无法告诉您原因! 谢谢你。 最佳答案 前端处理
我有很多 JS 文件。其中一些相互依赖。其中许多依赖于 jQuery。我需要一种工具,它可以接受一个文件作为参数,传递地获取其所有依赖项,并以正确的顺序将它们编译成一个文件(基于依赖项) 依赖信息并不
我正在阅读著名的紫龙书第二版,但无法从第 65 页获取有关创建第一组的示例: 我们有以下语法(终端以粗体显示): stmt → expr; | if ( expr ) stmt | for ( opt
我正在寻找将 C# 语法编译为 native 代码(或者可能编译为 C++?)的选项。我对拥有正式成为该语言一部分的所有库不感兴趣,只是能够像编写 C++ 程序一样编写程序,但使用语言结构,例如部分类
编译器(例如:gcc)中的 -march 标志真的很重要吗? 如果我使用 -march=my_architecture 而不是 -march=i686 编译所有程序和内核,会不会更快 最佳答案 是的,
我是一名优秀的程序员,十分优秀!