gpt4 book ai didi

c++ - 内联类方法的寄存器优化不足

转载 作者:行者123 更新时间:2023-11-28 05:19:35 25 4
gpt4 key购买 nike

为什么编译器不优化 Iterator::Incr 中内联代码的寄存器使用在下面显示的代码示例中? (Visual Studio 2015,/O2 优化设置)

当我使用本文底部显示的 C++ 代码并引用迭代器时,方法 Iterator::Incr 内联Interpolator::InterpolateFast内.但是,生成的汇编代码显示内存 访问Iterator::_rem , 虽然为了提高效率,这个类成员变量可以放在内部循环的 register 中。

$LL2@Interpolat:
00020 41 01 19 add DWORD PTR [r9], ebx ; memory access to Iterator::_rem (slow)
00023 4d 63 01 movsxd r8, DWORD PTR [r9]
...
0003e 75 e0 jne SHORT $LL2@Interpolat

当我编译迭代器被复制的快速版本时,汇编代码放置Iterator::_rem在处理器寄存器内部,只使用一次内存访问数组元素本身。

$LL2@Interpolat:
; 699 : _rem += _incr;
00011 45 03 c2 add r8d, r10d ; Iterator::_rem placed inside registers (fast)
...

当使用对 Iterator 类的引用时,编译器似乎会假定该类已被修改或访问 InterpolateFast (例如,通过并发线程),从而避免寄存器优化。

如何在不复制迭代器的情况下使用处理器寄存器实现内联方法的优化?

typedef unsigned int BYTE;

class Iterator
{
public:
Iterator() {}
Iterator (const Iterator& it) :
_rem (it._rem), _incr (it._incr) {}

inline int Incr (const BYTE* &pSrc)
{
_rem += _incr;
pSrc += _rem >> 16;
return _rem;
}

private:
int _rem;
int _incr;
friend class Interpolator;
};

class Interpolator
{
public:
Interpolator (BYTE* p) : _p (p) {}
int InterpolateFast (int len)
{
int sum = 0;
const BYTE *p = _p;
Iterator& it (_it); // slow version, memory accesses to it._rem
// Iterator it (_it); // fast version, registers optimized
while (len--)
{
int rem = it.Incr (p);
sum += p[0] * rem;
}
return sum;
}

private:
Iterator _it;
const BYTE* _p;
};

int main()
{
BYTE arr[1000];
Interpolator ip (arr);
volatile int sum = ip.InterpolateFast (1000);
return 0;
}

(请注意,这篇文章的代码已经过简化,没有任何有意义的功能。)

最佳答案

问题在于,在函数的末尾,_it 必须已通过调用 Incr 进行了修改。通过复制,唯一需要更新的对象被销毁,因此更新对外部不可见。

显然,编译器可以在循环结束时更新内存,但在出现早期返回或异常时这很棘手。你和我都可以看到这不适用于此处,但编译器可能已经迷路了。

还有一个问题是,如果循环内有更复杂的调用,编译器将需要确保 _it 在循环内更新。

最简单的解决方法是:

    Iterator it (_it); // fast version, registers optimized
while (len--)
{
int rem = it.Incr (p);
sum += p[0] * rem;
}
_it = it; // ****** Added line
return sum;

顺便说一下,你有没有显示内存访问速度慢的时间?第一次迭代后,它会在 L1 缓存中,这并不比寄存器慢多少。 (This answer 建议可能还有 3-5 个周期,这可能会与其他内容重叠。)

关于c++ - 内联类方法的寄存器优化不足,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/41803607/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com