- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我想让一些 vector 计算更快,我相信用于浮点比较和操作的 SIMD 指令会有所帮助,这是操作:
void func(const double* left, const double* right, double* res, const size_t size, const double th, const double drop) {
for (size_t i = 0; i < size; ++i) {
res[i] = right[i] >= th ? left[i] : (left[i] - drop) ;
}
}
left
值高于
drop
,它会通过
right
删除
threshold
值。
最佳答案
Clang 已经自动矢量化了,这几乎就像 Soonts 建议的手动做的那样。 在您的指针上使用 __restrict
,因此它不需要用于某些数组之间重叠的回退版本。它仍然自动矢量化,但它使函数膨胀。
不幸的是,gcc 只使用 -ffast-math
自动矢量化。结果证明只需要 -fno-trapping-math
:这通常是安全的,特别是如果您不使用 fenv
访问来取消屏蔽任何 FP 异常 ( feenableexcept
) 或查看 MXCSR 粘性 FP 异常标志 ( fetestexcept
)。
使用该选项,GCC 也将使用 (v)pblendvpd
和 -march=nehalem
或 -march=znver1
。 See it on Godbolt
此外,您的 C 函数已损坏。 th
和 drop
是双标量,但您将它们声明为 const double *
AVX512F 可以让您进行 !(right[i] >= thresh)
比较并使用结果掩码进行合并掩码减法。
谓词为真的元素将获得 left[i] - drop
,其他元素将保留其 left[i]
值,因为您将 info 合并为 left
值的 vector 。
不幸的是,带有 -march=skylake-avx512
的 GCC 使用一个普通的 vsubpd
然后一个单独的 vmovapd zmm2{k1}, zmm5
来混合,这显然是一个错过的优化。混合目标已经是 SUB 的输入之一。
将 AVX512VL 用于 256 位 vector (以防您的程序的其余部分无法有效地使用 512 位,因此您不会降低涡轮时钟速度):
__m256d left = ...;
__m256d right = ...;
__mmask8 cmp = _mm256_cmp_pd_mask(right, set1(th), _CMP_NGE_UQ);
__m256d res = _mm256_mask_sub_pd (left, cmp, left, set1(drop));
blendvpd
时也更好,因为该指令效率不高。
0.0
中减去
drop
或
left[i]
。
0.0
或常量非常有效:只是一条
andps
指令。 (
0.0
的位模式是全零,SIMD 比较产生全 1 或全 0 位的 vector 。因此 AND 保留旧值或将其归零。)
-drop
而不是减去
drop
。这需要对输入进行额外的否定,但 AVX 允许
vaddpd
的内存源操作数。不过,GCC 选择使用索引寻址模式,因此实际上无助于减少 Intel CPU 上的前端 uop 计数;它会“解压”。但即使使用
-ffast-math
,gcc 也不会自行进行这种优化以允许折叠负载。 (不过,除非我们展开循环,否则不值得进行单独的指针增量。)
void func3(const double *__restrict left, const double *__restrict right, double *__restrict res,
const size_t size, const double th, const double drop)
{
for (size_t i = 0; i < size; ++i) {
double add = right[i] >= th ? 0.0 : -drop;
res[i] = left[i] + add;
}
}
-march
选项并且没有
-ffast-math
)来自上面的 Godbolt 链接:
# func3 main loop
# gcc -O3 -march=skylake (without fast-math)
.L33:
vcmplepd ymm2, ymm4, YMMWORD PTR [rsi+rax]
vandnpd ymm2, ymm2, ymm3
vaddpd ymm2, ymm2, YMMWORD PTR [rdi+rax]
vmovupd YMMWORD PTR [rdx+rax], ymm2
add rax, 32
cmp r8, rax
jne .L33
left - zero_or_drop
而不是
left + zero_or_minus_drop
基本相同,所以除非你能保证编译器 16 字节对齐或者你正在制作 AVX 版本,否则否定
drop
只是额外的开销。
drop
从内存中获取一个常量(对符号位进行异或),这是该函数需要的唯一静态常量 ,因此对于循环运行次数不多的情况,值得考虑权衡。 (除非
th
或
drop
在内联后也是编译时常量,并且无论如何都会被加载。或者特别是如果
-drop
可以在编译时计算。或者如果你可以让你的程序使用负值
drop
。)
-0.0 - 0.0 = -0.0
,
+0.0 - 0.0 = +0.0
。万一那很重要。
# gcc9.1 -O3
.L26:
movupd xmm5, XMMWORD PTR [rsi+rax]
movapd xmm2, xmm4 # duplicate th
movupd xmm6, XMMWORD PTR [rdi+rax]
cmplepd xmm2, xmm5 # destroy the copy of th
andnpd xmm2, xmm3 # _mm_andnot_pd
addpd xmm2, xmm6 # _mm_add_pd
movups XMMWORD PTR [rdx+rax], xmm2
add rax, 16
cmp r8, rax
jne .L26
cmppd
或
subpd
关于c++ - 用于 float 阈值操作的 SIMD,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/56670132/
#include using namespace std; class C{ private: int value; public: C(){ value = 0;
这个问题已经有答案了: What is the difference between char a[] = ?string?; and char *p = ?string?;? (8 个回答) 已关闭
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 7 年前。 此帖子已于 8 个月
除了调试之外,是否有任何针对 c、c++ 或 c# 的测试工具,其工作原理类似于将独立函数复制粘贴到某个文本框,然后在其他文本框中输入参数? 最佳答案 也许您会考虑单元测试。我推荐你谷歌测试和谷歌模拟
我想在第二台显示器中移动一个窗口 (HWND)。问题是我尝试了很多方法,例如将分辨率加倍或输入负值,但它永远无法将窗口放在我的第二台显示器上。 关于如何在 C/C++/c# 中执行此操作的任何线索 最
我正在寻找 C/C++/C## 中不同类型 DES 的现有实现。我的运行平台是Windows XP/Vista/7。 我正在尝试编写一个 C# 程序,它将使用 DES 算法进行加密和解密。我需要一些实
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
有没有办法强制将另一个 窗口置于顶部? 不是应用程序的窗口,而是另一个已经在系统上运行的窗口。 (Windows, C/C++/C#) 最佳答案 SetWindowPos(that_window_ha
假设您可以在 C/C++ 或 Csharp 之间做出选择,并且您打算在 Windows 和 Linux 服务器上运行同一服务器的多个实例,那么构建套接字服务器应用程序的最明智选择是什么? 最佳答案 如
你们能告诉我它们之间的区别吗? 顺便问一下,有什么叫C++库或C库的吗? 最佳答案 C++ 标准库 和 C 标准库 是 C++ 和 C 标准定义的库,提供给 C++ 和 C 程序使用。那是那些词的共同
下面的测试代码,我将输出信息放在注释中。我使用的是 gcc 4.8.5 和 Centos 7.2。 #include #include class C { public:
很难说出这里问的是什么。这个问题是含糊的、模糊的、不完整的、过于宽泛的或修辞性的,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开它,visit the help center 。 已关
我的客户将使用名为 annoucement 的结构/类与客户通信。我想我会用 C++ 编写服务器。会有很多不同的类继承annoucement。我的问题是通过网络将这些类发送给客户端 我想也许我应该使用
我在 C# 中有以下函数: public Matrix ConcatDescriptors(IList> descriptors) { int cols = descriptors[0].Co
我有一个项目要编写一个函数来对某些数据执行某些操作。我可以用 C/C++ 编写代码,但我不想与雇主共享该函数的代码。相反,我只想让他有权在他自己的代码中调用该函数。是否可以?我想到了这两种方法 - 在
我使用的是编写糟糕的第 3 方 (C/C++) Api。我从托管代码(C++/CLI)中使用它。有时会出现“访问冲突错误”。这使整个应用程序崩溃。我知道我无法处理这些错误[如果指针访问非法内存位置等,
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。 我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题,以便用事实和引用来回答。 关闭 7 年前。
已关闭。此问题不符合Stack Overflow guidelines 。目前不接受答案。 要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的,因为
我有一些 C 代码,将使用 P/Invoke 从 C# 调用。我正在尝试为这个 C 函数定义一个 C# 等效项。 SomeData* DoSomething(); struct SomeData {
这个问题已经有答案了: Why are these constructs using pre and post-increment undefined behavior? (14 个回答) 已关闭 6
我是一名优秀的程序员,十分优秀!