gpt4 book ai didi

assembly - x86 : inline asm or compiler-generated lock bts? 中的原子测试和设置

转载 作者:行者123 更新时间:2023-12-01 13:47:20 25 4
gpt4 key购买 nike

下面的代码在为 xeon phi 编译时抛出错误:k1om 不支持 cmovc

但它确实可以为常规至强处理器正确编译。

#include<stdio.h>
int main()
{
int in=5;
int bit=1;
int x=0, y=1;
int& inRef = in;
printf("in=%d\n",in);
asm("lock bts %2,%0\ncmovc %3,%1" : "+m" (inRef), "+r"(y) : "r" (bit), "r"(x));
printf("in=%d\n",in);
}

编译器 - icc (ICC) 13.1.0 20130121

相关问题:bit test and set (BTS) on a tbb atomic variable

最佳答案

IIRC,第一代 Xeon Phi 基于 P5 内核(奔腾和奔腾 MMX)。 cmov 直到 P6(又名 Pentium Pro)才被引入。所以我认为这是正常的。

只需让编译器通过编写一个普通的三元运算符来完成它的工作。

其次,cmov 是比 setc 更糟糕的选择,因为您想根据进位标志生成 0 或 1。请参阅下面我的 asm 代码。

另请注意,带有内存操作数的 bts 非常慢,因此您无论如何都不希望它生成该代码,尤其是。在将 x86 指令解码为 uops 的 CPU 上(如现代 Xeon)。根据http://agner.org/optimize/ , bts m, r 即使在 P5 上也比 bts m, i 慢得多,所以不要那样做。

只需要求编译器将 in 放入寄存器中,或者更好的是,不要为此使用内联 asm。


由于 OP 显然希望它以原子方式工作,因此最好的解决方案是使用 C++11 的 std::atomic::fetch_or,并将其留给编译器生成 锁定防弹少年团

std::atomic_flag有一个 test_and_set 函数,但如果有办法将它们紧密打包,我就不知道了。也许作为结构中的位域?虽然不太可能。我也没有看到 std::bitset 的原子操作。

不幸的是,当前版本的 gcc 和 clang 不会从 fetch_or 生成 lock bts,即使可以使用更快的立即操作数形式也是如此。我想出了以下 ( godbolt link ):

#include <atomic>
#include <stdio.h>

// wastes instructions when the return value isn't used.
// gcc 6.0 has syntax for using flags as output operands

// IDK if lock BTS is better than lock cmpxchg.
// However, gcc doesn't use lock BTS even with -Os
int atomic_bts_asm(std::atomic<unsigned> *x, int bit) {
int retval = 0; // the compiler still provides a zeroed reg as input even if retval isn't used after the asm :/
// Letting the compiler do the xor means we can use a m constraint, in case this is inlined where we're storing to already zeroed memory
// It unfortunately doesn't help for overwriting a value that's already known to be 0 or 1.
asm( // "xor %[rv], %[rv]\n\t"
"lock bts %[bit], %[x]\n\t"
"setc %b[rv]\n\t" // hope that the compiler zeroed with xor to avoid a partial-register stall
: [x] "+m" (*x), [rv] "+rm"(retval)
: [bit] "ri" (bit));
return retval;
}

// save an insn when retval isn't used, but still doesn't avoid the setc
// leads to the less-efficient setc/ movzbl sequence when the result is needed :/
int atomic_bts_asm2(std::atomic<unsigned> *x, int bit) {
uint8_t retval;
asm( "lock bts %[bit], %[x]\n\t"
"setc %b[rv]\n\t"
: [x] "+m" (*x), [rv] "=rm"(retval)
: [bit] "ri" (bit));
return retval;
}


int atomic_bts(std::atomic<unsigned> *x, unsigned int bit) {
// bit &= 31; // stops gcc from using shlx?
unsigned bitmask = 1<<bit;
//int oldval = x->fetch_or(bitmask, std::memory_order_relaxed);

int oldval = x->fetch_or(bitmask, std::memory_order_acq_rel);
// acquire and release semantics are free on x86
// Also, any atomic rmw needs a lock prefix, which is a full memory barrier (seq_cst) anyway.

if (oldval & bitmask)
return 1;
else
return 0;
}

What is the best way to set a register to zero in x86 assembly: xor, mov or and? 中所述, xor/set-flags/setc 是所有现代 CPU 在需要结果作为 0 或 1 值时的最佳序列。我实际上并没有为此考虑过 P5,但是 setcc 在 P5 上速度很快,所以应该没问题。

当然,如果你想在这个上面分支而不是存储它,inline asm 和 C 之间的边界是一个障碍。花费两条指令来存储 0 或 1,仅用于对其进行测试/分支,这将是非常愚蠢的。

gcc6 的标志操作数语法当然值得研究,如果它是一个选项。 (如果您需要针对 Intel MIC 的编译器,则可能不需要。)

关于assembly - x86 : inline asm or compiler-generated lock bts? 中的原子测试和设置,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34940356/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com