gpt4 book ai didi

C循环展开优化性能

转载 作者:太空狗 更新时间:2023-10-29 15:21:15 25 4
gpt4 key购买 nike

首先:我知道循环优化是什么以及它是如何工作的,但我发现了一个我无法解释结果的情况。

我创建了一个质数检查器,它对从 2 到 n - 1 的每个数字调用模数,因此没有算法优化。

编辑:我知道可以更有效地计算质数,但这只是循环行为的一个示例。

然后我创建了一个普通版本和一个优化版本:

#include <stdlib.h>
#include <stdio.h>

typedef unsigned long long natural;

int is_prime(natural n){
int is_not_prime = 0;

for(natural i = 2; i < n; i += 1){
is_not_prime |= !!!(n % i);
}

if(is_not_prime){
return 0;
}else{
return 1;
}
}

//__attribute__((noinline))
int is_prime_opt(natural n){
int is_not_prime = 0;

for(natural i = 2; i < n; i += 8){
is_not_prime |= !!(
!(n % i) |
!(n % i + 1) |
!(n % i + 2) |
!(n % i + 3) |
!(n % i + 4) |
!(n % i + 5) |
!(n % i + 6) |
!(n % i + 7));
}

if(is_not_prime){
return 0;
}else{
return 1;
}
}

int main(int argc, char *argv[])
{
if(argc != 2)
return 1;

natural check = atoi(argv[1]);

if(is_prime(check)){
printf("%llu is prime\n", check);
}

return 0;
}

我使用带有 -O3 的 gcc 编译了代码,以强制由编译器完成所有优化。由于在编译时不知道迭代次数,我希望编译器不会展开循环。我创建了第二个版本,它以 8 个数字为一组执行相同的操作。由于某些输入不能被 8 整除,因此循环最多计算 7 个项目,但这是可以接受的。

我使用 valgrind --tool=callgrind ./prime 100000000 检查循环,输出如下:

未优化:

==983== Callgrind, a call-graph generating cache profiler
==983== Copyright (C) 2002-2015, and GNU GPL'd, by Josef Weidendorfer et al.
==983== Using Valgrind-3.12.0.SVN and LibVEX; rerun with -h for copyright info
==983== Command: ./prime 100000000
==983==
==983== For interactive control, run 'callgrind_control -h'.
==983==
==983== Events : Ir
==983== Collected : 1000098047
==983==
==983== I refs: 1,000,098,047

优化:

==2307== Callgrind, a call-graph generating cache profiler
==2307== Copyright (C) 2002-2015, and GNU GPL'd, by Josef Weidendorfer et al.
==2307== Using Valgrind-3.12.0.SVN and LibVEX; rerun with -h for copyright info
==2307== Command: ./prime 100000000
==2307==
==2307== For interactive control, run 'callgrind_control -h'.
==2307==
==2307== Events : Ir
==2307== Collected : 137598072
==2307==
==2307== I refs: 137,598,072

我预计循环会快 10-20%,因为我节省了 1/8 的跳跃和检查。此外,分支预测应该已经加快了第一个版本的速度,因为除了最后一个跳转之外,所有版本都指向相同的方向。

我不清楚为什么它快了 7 倍以上?因为我用 100M 调用它,所以我希望它至少执行 100M - 3 (w/o 0, 1, n) 模或求反操作,但它每个元素只需要 1.37 个周期(而 afaik 模不是一个廉价的操作)。

最佳答案

!(n % i + 1) 似乎是奇数,n%i 将导致 0 或正数,添加1 将得到一个正数,计算 ! 将得到 0。所以每个 !(n % i + XX) 都可以被优化掉。

应该是!(n % (i + 1))

关于C循环展开优化性能,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/52892160/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com