gpt4 book ai didi

c - 整数上的无分支条件——很快,但它们能变得更快吗?

转载 作者:太空狗 更新时间:2023-10-29 16:32:43 26 4
gpt4 key购买 nike

我一直在尝试以下内容,并注意到此处定义的无分支“if”(现在用 &-!! 替换 *!!)可以加快速度使用 clang 在 64 位 Intel 目标上将某些瓶颈代码提高(几乎)2 倍:

// Produces x if f is true, else 0 if f is false.
#define BRANCHLESS_IF(f,x) ((x) & -((typeof(x))!!(f)))

// Produces x if f is true, else y if f is false.
#define BRANCHLESS_IF_ELSE(f,x,y) (((x) & -((typeof(x))!!(f))) | \
((y) & -((typeof(y)) !(f))))

请注意,f 应该是一个相当简单且没有副作用的表达式,以便编译器能够进行最佳优化。

性能高度依赖于 CPU 和编译器。 clang 的无分支“if”性能非常好;不过,我还没有发现任何无分支的“if/else”更快的案例。

我的问题是:这些是否如所写的那样安全且可移植(意味着保证在所有目标上给出正确的结果),它们可以更快吗?

无分支 if/else 的用法示例

这些计算 64 位最小值和最大值。

inline uint64_t uint64_min(uint64_t a, uint64_t b)
{
return BRANCHLESS_IF_ELSE((a <= b), a, b);
}

inline uint64_t uint64_max(uint64_t a, uint64_t b)
{
return BRANCHLESS_IF_ELSE((a >= b), a, b);
}

branchless if 的用法示例

这是 64 位模加法 — 它计算 (a + b) % n。分支版本(未显示)遭受分支预测失败的严重影响,但无分支版本非常快(至少有 clang)。

inline uint64_t uint64_add_mod(uint64_t a, uint64_t b, uint64_t n)
{
assert(n > 1); assert(a < n); assert(b < n);

uint64_t c = a + b - BRANCHLESS_IF((a >= n - b), n);

assert(c < n);
return c;
}

更新:无分支 if 的完整具体工作示例

下面是一个完整的 C11 程序,它演示了一个简单的 if 条件的分支版本和无分支版本之间的速度差异,如果您想在您的系统上尝试的话。该程序计算模幂,即 (a ** b) % n,用于非常大的值。

要编译,请在命令行中使用以下命令:

  • -O3(或您喜欢的任何高优化级别)
  • -DNDEBUG(禁用断言,提高速度)
  • -DBRANCHLESS=0-DBRANCHLESS=1 分别指定分支或无分支行为

在我的系统上,这是发生的事情:

$ cc -DBRANCHLESS=0 -DNDEBUG -O3 -o powmod powmod.c && ./powmod
BRANCHLESS = 0
CPU time: 21.83 seconds
foo = 10585369126512366091

$ cc -DBRANCHLESS=1 -DNDEBUG -O3 -o powmod powmod.c && ./powmod
BRANCHLESS = 1
CPU time: 11.76 seconds
foo = 10585369126512366091

$ cc --version
Apple LLVM version 6.0 (clang-600.0.57) (based on LLVM 3.5svn)
Target: x86_64-apple-darwin14.1.0
Thread model: posix

因此,在我的系统上,无分支版本的速度几乎是分支版本的两倍(3.4 GHz。Intel Core i7)。

// SPEED TEST OF MODULAR MULTIPLICATION WITH BRANCHLESS CONDITIONALS

#include <stdio.h>
#include <stdint.h>
#include <inttypes.h>
#include <time.h>
#include <assert.h>

typedef uint64_t uint64;

//------------------------------------------------------------------------------
#if BRANCHLESS
// Actually branchless.
#define BRANCHLESS_IF(f,x) ((x) & -((typeof(x))!!(f)))
#define BRANCHLESS_IF_ELSE(f,x,y) (((x) & -((typeof(x))!!(f))) | \
((y) & -((typeof(y)) !(f))))
#else
// Not actually branchless, but used for comparison.
#define BRANCHLESS_IF(f,x) ((f)? (x) : 0)
#define BRANCHLESS_IF_ELSE(f,x,y) ((f)? (x) : (y))
#endif

//------------------------------------------------------------------------------
// 64-bit modular multiplication. Computes (a * b) % n without division.

static uint64 uint64_mul_mod(uint64 a, uint64 b, const uint64 n)
{
assert(n > 1); assert(a < n); assert(b < n);

if (a < b) { uint64 t = a; a = b; b = t; } // Ensure that b <= a.

uint64 c = 0;
for (; b != 0; b /= 2)
{
// This computes c = (c + a) % n if (b & 1).
c += BRANCHLESS_IF((b & 1), a - BRANCHLESS_IF((c >= n - a), n));
assert(c < n);

// This computes a = (a + a) % n.
a += a - BRANCHLESS_IF((a >= n - a), n);
assert(a < n);
}

assert(c < n);
return c;
}

//------------------------------------------------------------------------------
// 64-bit modular exponentiation. Computes (a ** b) % n using modular
// multiplication.

static
uint64 uint64_pow_mod(uint64 a, uint64 b, const uint64 n)
{
assert(n > 1); assert(a < n);

uint64 c = 1;

for (; b > 0; b /= 2)
{
if (b & 1)
c = uint64_mul_mod(c, a, n);

a = uint64_mul_mod(a, a, n);
}

assert(c < n);
return c;
}

//------------------------------------------------------------------------------
int main(const int argc, const char *const argv[const])
{
printf("BRANCHLESS = %d\n", BRANCHLESS);

clock_t clock_start = clock();

#define SHOW_RESULTS 0

uint64 foo = 0; // Used in forcing compiler not to throw away results.

uint64 n = 3, a = 1, b = 1;
const uint64 iterations = 1000000;
for (uint64 iteration = 0; iteration < iterations; iteration++)
{
uint64 c = uint64_pow_mod(a%n, b, n);

if (SHOW_RESULTS)
{
printf("(%"PRIu64" ** %"PRIu64") %% %"PRIu64" = %"PRIu64"\n",
a%n, b, n, c);
}
else
{
foo ^= c;
}

n = n * 3 + 1;
a = a * 5 + 3;
b = b * 7 + 5;
}

clock_t clock_end = clock();
double elapsed = (double)(clock_end - clock_start) / CLOCKS_PER_SEC;
printf("CPU time: %.2f seconds\n", elapsed);

printf("foo = %"PRIu64"\n", foo);

return 0;
}

第二次更新:Intel 与 ARM 性能对比

  • 在 32 位 ARM 目标(iPhone 3GS/4S、iPad 1/2/3/4,由 Xcode 6.1 使用 clang 编译)上进行测试表明,这里的无分支“if”实际上是 比三元 ?: 在那些情况下的模幂代码。因此,如果需要最大速度,这些无分支宏似乎不是一个好主意,尽管它们在需要恒定速度的极少数情况下可能很有用。
  • 在 64 位 ARM 目标(iPhone 6+、iPad 5)上,无分支“if”的运行速度与三元 ?: 相同——同样由 Xcode 6.1 使用 clang 编译。<
  • 对于 Intel 和 ARM(由 clang 编译),无分支“if/else”的速度大约是三元 ?: 的两倍,用于计算最小值/最大值。

最佳答案

确定这是可移植的,! 运算符保证返回 01 作为结果。然后将其提升为其他操作数所需的任何类型。

正如其他人所观察到的,您的 if-else 版本的缺点是需要计算两次,但您已经知道这一点,如果没有副作用,您就没事了。

令我惊讶的是你说这更快。我原以为现代编译器会自己执行这种优化。

编辑:所以我用两个编译器(gcc 和 clang)和配置的两个值对此进行了测试。

事实上,如果你没有忘记设置-DNDEBUG=1,带有?:0版本更适合gcc 并做我希望它做的事情。它基本上使用条件移动使循环无分支。在那种情况下,clang 不会找到这种优化并进行一些条件跳转。

对于带有算术的版本,gcc 的性能会变差。事实上,看到他这样做并不奇怪。它确实使用了 imul 指令,而且这些指令很慢。 clang 在这里下车更好。 “算术”实际上已经优化了乘法并用条件移动代替它们。

总而言之,是的,这是可移植的,但如果这带来性能改进或恶化将取决于您的编译器、它的版本、您应用的编译标志、您的处理器的潜力......

关于c - 整数上的无分支条件——很快,但它们能变得更快吗?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/31897718/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com