- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我编写了一些代码,这些代码在当前CPU上可用时使用AVX内部函数。在GCC和Clang中,与Visual C ++不同,要使用内部函数,必须在命令行上启用它们。
GCC和Clang的问题在于,启用这些选项后,您将赋予编译器自由使用权,以在源文件中的任何地方使用这些指令。当头文件包含内联函数或模板函数时,这是非常糟糕的,因为编译器将使用AVX指令生成这些函数。
链接时,重复的功能将被丢弃。但是,由于某些源文件是使用-mavx
编译的,而有些不是使用#pragma GCC target
编译的,因此内联/模板函数的各种编译将有所不同。如果您不走运,链接器将随机选择具有AVX指令的版本,从而导致该程序在没有AVX的系统上运行时崩溃。
GCC用
#pragma GCC push_options
#pragma GCC target("no-avx")
#include "MyHeader.h"
#pragma GCC pop_options
最佳答案
您可能应该使用static inline
而不是inline
,所以使用-mavx
编译的函数的版本将仅由该翻译单元的调用者使用。
链接器仍将合并实际的重复项,而不是仅按名称选择一个非内联定义。
这还有一个优点,就是编译器不会浪费时间为它决定内联到该转换单元中的每个调用程序中的函数发出独立的定义。
如果您习惯了gcc / clang方式并为其设计代码,那么gcc / clang方式才有意义。请注意,如果要编译使用AVX的函数,则MSVC需要启用AVX。否则,它将混合使用VEX和非VEX编码,从而导致较大的损失,而不是在_mm_add_ps
循环末尾的水平添加中对诸如128位_mm256_add_ps
之类的东西使用VEX编码。
因此,MSVC基本上存在相同的问题,即编译_mm_whatever
将使仅AVX的机器代码成为可能。
关于clang - Clang是否有类似#pragma GCC目标的内容?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46165752/
我应该使用其中哪些忽略警告? #pragma clang diagnostic ignored "-W" #pragma GCC diagnostic ignored "-W" 两者似乎都对我有用,但
#pragma startup and #pragma exit: These directives helps us to specify the functions that are needed
Xcode 中 #pragma 标记的目的是什么?它们在 .m 文件中的位置是否重要?某些 #pragma 是否应该排在所有其他之前? 他们必须在场吗? 可以添加新标记吗?他们为什么会这样?是什么原因
我想使用 nim 访问完整模块(文件)的 AST。我发现,任何宏都可以用作自定义编译指示,所以我在文件 foo.nim 中做了这样的事情: import macros macro getAst(ast
考虑: void saxpy_worksharing(float* x, float* y, float a, int N) { #pragma omp parallel for
在带有 openMP 的 C++ 中,两者之间有什么区别吗 #pragma omp parallel for for(int i=0; i
在 Visual Studio 2010 中使用 C++ native 解决方案。 #pragma warning (push) 用于 cpp 文件的开头,在所有包含之后。之后,#pragma war
在 #pragma omp parallel 的开头创建了一堆线程,然后当我们到达 #pragma omp for 时,工作负载被分配。如果这个 for 循环内部有一个 for 循环,并且我在它之前也
使用#pragma pop_macro("int") #include using namespace std; #define int double void main() { int i
我正在处理一些事情,试图让孤立工作发挥作用,并通过减少 #pragma omp parallel 的调用来减少开销。我正在尝试的是这样的: #pragma omp parallel default(n
我是 OpenMP 的新手,我一直在尝试运行一个使用 OpenMP 添加两个数组的程序。在 OpenMP 教程中,我了解到,在 for 循环上使用 OpenMP 时,我们需要使用 #pragma om
我阅读了有关循环展开的文档。它解释说,如果将展开因子设置为 1,则程序将像使用 #pragma nounrolling 一样工作。 但是,该文件不包括#pragma unroll(0) 案例..由于
我正在尝试使用 #pragma pack (n) 对齐数据成员.以下面为例: #include using namespace std; #pragma pack(8) // or (16) str
我是 C 语言的菜鸟,正在尝试学习 #pragma 预处理器指令。我在谷歌上查找并找到了这个链接:GeeksforGeeks Pragma Directive in C 在这个链接中,他们说 #pra
之间有什么区别: #pragma omp for {for_loop} 和 #pragma omp parallel for {for_loop} 最佳答案 #pragma omp par
我正在查看一些 C++/CLI 代码,并且看到了很多这样的语句,主要是围绕 #includes。他们的意思是什么?我知道他们,根据 MSDN,Enable function-level control
在 OpenMP 中 #pragma omp master 中的任何代码指令由单个线程(主线程)执行,在区域末尾没有隐含的屏障。 (见 section on MASTER directive in t
一些项目使用 #pragma nv_exec_check_disable 和/或 #pragma hd_warning_disable 使 NVCC 的警告静音 warning: calling a
英特尔编译器允许我们通过以下方式对循环进行矢量化 #pragma simd for ( ... ) 但是,您也可以选择使用 OpenMP 4 的指令执行此操作: #pragma omp simd fo
我想构建一些代码,在加载共享库时调用一些代码。我以为我会这样做: #pragma init(my_init) static void my_init () { //do-something }
我是一名优秀的程序员,十分优秀!