assembly - x86 : inline asm or compiler-generated lock bts? 中的原子测试和设置-6ren

assembly - x86 : inline asm or compiler-generated lock bts? 中的原子测试和设置

转载作者：行者123 更新时间：2023-12-01 13:47:20

25

4

下面的代码在为 xeon phi 编译时抛出错误:k1om 不支持 cmovc。

但它确实可以为常规至强处理器正确编译。

#include<stdio.h>
int main()
{
    int in=5;
    int bit=1;
    int x=0, y=1;
    int& inRef = in;
    printf("in=%d\n",in);
    asm("lock bts %2,%0\ncmovc %3,%1" : "+m" (inRef), "+r"(y) : "r" (bit), "r"(x));
    printf("in=%d\n",in);
}

编译器 - icc (ICC) 13.1.0 20130121

最佳答案

IIRC，第一代 Xeon Phi 基于 P5 内核(奔腾和奔腾 MMX)。 cmov 直到 P6(又名 Pentium Pro)才被引入。所以我认为这是正常的。

只需让编译器通过编写一个普通的三元运算符来完成它的工作。

其次，cmov 是比 setc 更糟糕的选择，因为您想根据进位标志生成 0 或 1。请参阅下面我的 asm 代码。

另请注意，带有内存操作数的 bts 非常慢，因此您无论如何都不希望它生成该代码，尤其是。在将 x86 指令解码为 uops 的 CPU 上(如现代 Xeon)。根据http://agner.org/optimize/ , bts m, r 即使在 P5 上也比 bts m, i 慢得多，所以不要那样做。

只需要求编译器将 in 放入寄存器中，或者更好的是，不要为此使用内联 asm。

由于 OP 显然希望它以原子方式工作，因此最好的解决方案是使用 C++11 的 std::atomic::fetch_or，并将其留给编译器生成 锁定防弹少年团。

std::atomic_flag有一个 test_and_set 函数，但如果有办法将它们紧密打包，我就不知道了。也许作为结构中的位域？虽然不太可能。我也没有看到 std::bitset 的原子操作。

不幸的是，当前版本的 gcc 和 clang 不会从 fetch_or 生成 lock bts，即使可以使用更快的立即操作数形式也是如此。我想出了以下 ( godbolt link ):

#include <atomic>
#include <stdio.h>

// wastes instructions when the return value isn't used.
// gcc 6.0 has syntax for using flags as output operands

// IDK if lock BTS is better than lock cmpxchg.
// However, gcc doesn't use lock BTS even with -Os
int atomic_bts_asm(std::atomic<unsigned> *x, int bit) {
  int retval = 0;  // the compiler still provides a zeroed reg as input even if retval isn't used after the asm :/
  // Letting the compiler do the xor means we can use a m constraint, in case this is inlined where we're storing to already zeroed memory
  // It unfortunately doesn't help for overwriting a value that's already known to be 0 or 1.
  asm( // "xor      %[rv], %[rv]\n\t"
       "lock bts %[bit], %[x]\n\t"
       "setc     %b[rv]\n\t"  // hope that the compiler zeroed with xor to avoid a partial-register stall
        : [x] "+m" (*x), [rv] "+rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}

// save an insn when retval isn't used, but still doesn't avoid the setc
// leads to the less-efficient setc/ movzbl sequence when the result is needed :/
int atomic_bts_asm2(std::atomic<unsigned> *x, int bit) {
  uint8_t retval;
  asm( "lock bts %[bit], %[x]\n\t"
       "setc     %b[rv]\n\t"
        : [x] "+m" (*x), [rv] "=rm"(retval)
        : [bit] "ri" (bit));
  return retval;
}


int atomic_bts(std::atomic<unsigned> *x, unsigned int bit) {
  // bit &= 31; // stops gcc from using shlx?
  unsigned bitmask = 1<<bit;
  //int oldval = x->fetch_or(bitmask, std::memory_order_relaxed);

  int oldval = x->fetch_or(bitmask, std::memory_order_acq_rel);
  // acquire and release semantics are free on x86
  // Also, any atomic rmw needs a lock prefix, which is a full memory barrier (seq_cst) anyway.

  if (oldval & bitmask)
    return 1;
  else
    return 0;
}

如 What is the best way to set a register to zero in x86 assembly: xor, mov or and? 中所述, xor/set-flags/setc 是所有现代 CPU 在需要结果作为 0 或 1 值时的最佳序列。我实际上并没有为此考虑过 P5，但是 setcc 在 P5 上速度很快，所以应该没问题。

当然，如果你想在这个上面分支而不是存储它，inline asm 和 C 之间的边界是一个障碍。花费两条指令来存储 0 或 1，仅用于对其进行测试/分支，这将是非常愚蠢的。

gcc6 的标志操作数语法当然值得研究，如果它是一个选项。 (如果您需要针对 Intel MIC 的编译器，则可能不需要。)

关于assembly - x86 : inline asm or compiler-generated lock bts? 中的原子测试和设置，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/34940356/

25

4

0

文章推荐： apache - http 到 https 与 www 一起重定向到 htaccess 中的非 www

文章推荐： java - 超出类文件格式限制

文章推荐： Apache 虚拟主机默认为 FQDN

Java Lock.lock() 和 Lock.lockInterruptibly()
我想知道锁是如何在 Java 中实现的。在一些教程中，我发现它们应该使用 wait() 和 notify()/notifyAll() 以及一些 boolean 标志来实现(它可能比那复杂得多，但基本上
android - RocksDB IO 错误 : lock db/LOCK: No locks available
我正在开发一个多线程服务器，用于存储和读取来自数据库的信息。数据库是用 RocksDB 实现的。我遇到的问题是，当我一次从多个线程访问数据库时，我得到了那个错误。通常是说db在usign后没有被删
c++ - 如何以编程方式打开/关闭 Caps Lock、Scroll Lock、Num Lock 键
例如，这里有一些 linux 中的代码: void set_leds(int val) { int fd = open ("/dev/console", O_WRONLY); // argumen
java - 如何以编程方式打开/关闭 Caps Lock、Scroll Lock 和 Num Lock
关闭。这个问题需要更多focused .它目前不接受答案。想改进这个问题吗？更新问题，使其只关注一个问题 editing this post . 关闭 9 年前。 Improve this qu
java - 我们如何将 try finally 用于 Lock.lock 和 Lock.unlock
考虑以下代码。为了防止IndexOutOfBoundsException打电话时 listIterator ，我们使用读取器锁来检索基于索引的 iteartor，并在对 stockCodes 进行写操
java - lock.lock() 尝试前
这个问题在这里已经有了答案: Java locking structure best pattern (2 个答案) 关闭 6 年前。有什么区别: private Lock lock = new
javascript - 在页面加载时检查 JavaScript 中的 Scroll Lock、Num Lock 和 Caps Lock
是否可以在网页加载时检查 Scroll Lock、Num Lock 和 Caps Lock 的状态？我找到了使用 JavaScript 在按键后进行检查的方法，但这不是我要问的。最佳答案 2019
javascript - 在页面加载时检查 JavaScript 中的 Scroll Lock、Num Lock 和 Caps Lock
是否可以在网页加载时检查 Scroll Lock、Num Lock 和 Caps Lock 的状态？我找到了使用 JavaScript 在按键后进行检查的方法，但这不是我要问的。最佳答案 2019
linux - 在Ubuntu中安装应用程序时出现错误 "Waiting for cache lock: Could not get lock/var/lib/dpkg/lock-frontend"
在Ubuntu中安装某些东西时出现错误。我尝试了一些命令来杀死正在运行的进程，但仍然遇到相同的错误。最佳答案根据文章How to Fix “Waiting for cache lock: Coul
gradle - 如何使用Gradle 5和GradleBuild任务修复错误 'Cannot lock buildSrc build lock as it has already been locked by this process.'
我们有一个gradle构建，它可以动态创建GradleBuild类型的多个任务，以与不同的客户端库版本一起运行以测试其兼容性。在Gradle4上可以正常工作，但是在移至Gradle5后，执行第一项任务
database - Vertica DB 抛出不可用 : initiator locks for query - Locking failure: Timed out X locking
我在尝试运行在 vertica 数据库表上运行查询的客户端应用程序时反复遇到此错误。有人可以帮助解决这个问题吗？最佳答案我想知道您的客户端应用程序向 Vertica 发送了哪种“查询”(以 RE
java - 我可以将 java.util.concurrent.locks.Lock 更改为 java.util.concurrent.locks.ReentrantReadWriteLock;
我有一个创建锁的方法。 ReadWriteLock lock = new ReentrantReadWriteLock(); 然后我使用 Lock Interface 将该对象传递到一个方法中。 m
Python 3.x - 在 Windows 上获取 caps-lock/num-lock/scroll-lock 的状态
正如问题所问，我知道这是可能的on Linux ，但我找不到任何适用于 Windows 的最新信息。有可能吗？最佳答案您可以使用 ctypes 加载 user32.dll 然后调用 GetKeyS
python - 在 Python 中，有没有办法以编程方式更改 hidraw 设备上的 CAPS LOCK/NUM LOCK/SCROLL LOCK 状态
这是同一个问题 Change keyboard locks in Python或者 How to change caps lock status without key press . 但还是有区别的
locking - 为什么 Java 8 没有在 `withLock` 接口(interface)中添加 `java.util.concurrent.locks.Lock` 默认方法？
与 this question 相同，不知道为什么Java团队没有在Lock中添加一些默认方法界面，类似这样: public default void withLock(Runnable r) {
npm - 如何将package-lock.json转换为yarn.lock？
我有一个带有package-lock.json文件的项目。现在，我想基于yarn.lock文件或项目的现有package-lock.json生成node_modules文件。我怎样才能做到这一点？
locking - pthread_mutex_t 结构 : What does lock stand for?
我正在查看 pthreadtypes.h 文件中的 pthread_mutex_t 结构。 “__lock”代表什么？它就像分配给互斥锁的锁号吗？ typedef union { struct _
java - 使用 java.util.concurrent.locks.Lock 而不是同步的 : can my code avoid dead-lock in a bank transfer scenario?
我正在研究避免死锁的措施，其中一种可能的方法是通过强制线程放弃它在访问另一个锁但无法访问该锁时已经持有的锁来打破循环等待。以最简单的银行账户转账为例: class Account { priva
c++ - CMutex::Lock 与 CSingleLock::Lock
我被要求支持一些遗留代码，我看到了一些让我摸不着头脑的事情。在某些代码段中，我看到类实例使用 CMutex 实例来同步方法执行。例如 class CClassA : public CObject {
java - synchronized 是否像 Lock.lock() 那样停放并发线程？
当我们调用 lock.lock() 或尝试进入一个 synchronized block 时，如果其他线程已经获取了该锁，我们的线程就会阻塞。现在我的问题是，当我们查看 lock.lock() 的实现

首页

博学

6Ren·AI

商城

assembly - x86 : inline asm or compiler-generated lock bts? 中的原子测试和设置