gpt4 book ai didi

c++ - g++ -O3 比 -O2 优化得更好,添加了所有额外的优化

转载 作者:可可西里 更新时间:2023-11-01 18:35:43 27 4
gpt4 key购买 nike

<分区>

这是我正在查看的函数:

template <uint8_t Size>
inline uint64_t parseUnsigned( const char (&buf)[Size] )
{
uint64_t val = 0;
for (uint8_t i = 0; i < Size; ++i)
if (buf[i] != ' ')
val = (val * 10) + (buf[i] - '0');
return val;
}

我有一个测试工具,它传递所有可能的数字,其中 Size=5,左边用空格填充。我正在使用 GCC 4.7.2。当我在使用 -O3 编译后在 callgrind 下运行程序时,我得到:

I   refs:      7,154,919

当我使用 -O2 编译时,我得到:

I   refs:      9,001,570

好的,所以 -O3 提高了性能(我确认一些改进来自上述功能,而不仅仅是测试工具)。但我不想完全从 -O2 切换到 -O3,我想找出要添加的特定选项。所以我查阅 man g++ 以获取它所说的由 -O3 添加的选项列表:

-fgcse-after-reload                         [enabled]
-finline-functions [enabled]
-fipa-cp-clone [enabled]
-fpredictive-commoning [enabled]
-ftree-loop-distribute-patterns [enabled]
-ftree-vectorize [enabled]
-funswitch-loops [enabled]

所以我再次使用 -O2 进行编译,然后使用上述所有选项。但这给我的性能比普通的 -O2 更差:

I   refs:      9,546,017

我发现将 -ftree-vectorize 添加到 -O2 是造成这种性能下降的原因。但我无法弄清楚如何将 -O3 性能与任何选项组合相匹配。我该怎么做?

如果您想自己尝试,这里是测试工具(将上面的 parseUnsigned() 定义放在#includes 下):

#include <cmath>
#include <stdint.h>
#include <cstdio>
#include <cstdlib>
#include <cstring>

template <uint8_t Size>
inline void increment( char (&buf)[Size] )
{
for (uint8_t i = Size - 1; i < 255; --i)
{
if (buf[i] == ' ')
{
buf[i] = '1';
break;
}

++buf[i];
if (buf[i] > '9')
buf[i] -= 10;
else
break;
}
}

int main()
{
char str[5];
memset(str, ' ', sizeof(str));

unsigned max = std::pow(10, sizeof(str));
for (unsigned ii = 0; ii < max; ++ii)
{
uint64_t result = parseUnsigned(str);
if (result != ii)
{
printf("parseUnsigned(%*s) from %u: %lu\n", sizeof(str), str, ii, result);
abort();
}
increment(str);
}
}

27 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com