c++ - WORD 的 cmpxchg 比 BYTE 快-6ren

c++ - WORD 的 cmpxchg 比 BYTE 快

转载作者：可可西里更新时间：2023-11-01 18:38:41

30

4

昨天我发布了this question关于如何编写快速自旋锁。感谢 Cory Nelson，我似乎找到了一种优于我问题中讨论的其他方法的方法。我使用 CMPXCHG 指令来检查锁是否为 0 从而释放。 CMPXCHG 对“BYTE”、WORD 和 DWORD 进行操作。我假设该指令在 BYTE 上运行得更快。但是我写了一个实现每种数据类型的锁:

inline void spin_lock_8(char* lck)
{
    __asm
    {
        mov ebx, lck                        ;move lck pointer into ebx
        xor cl, cl                          ;set CL to 0
        inc cl                              ;increment CL to 1
        pause                               ;
        spin_loop:
        xor al, al                          ;set AL to 0
        lock cmpxchg byte ptr [ebx], cl     ;compare AL to CL. If equal ZF is set and CL is loaded into address pointed to by ebx
        jnz spin_loop                       ;jump to spin_loop if ZF
    }
}
inline void spin_lock_16(short* lck)
{
    __asm
    {
        mov ebx, lck
        xor cx, cx
        inc cx
        pause
        spin_loop:
        xor ax, ax
        lock cmpxchg word ptr [ebx], cx
        jnz spin_loop
    }
}
inline void spin_lock_32(int* lck)
{
    __asm
    {
        mov ebx, lck
        xor ecx, ecx
        inc ecx
        pause
        spin_loop:
        xor eax, eax
        lock cmpxchg dword ptr [ebx], ecx
        jnz spin_loop
    }
}
inline spin_unlock(<anyType>* lck)
{
    __asm
    {
        mov ebx, lck
        mov <byte/word/dword> ptr [ebx], 0
    }
}

然后使用以下伪代码测试锁(请注意 lcm 指针始终指向可被 4 整除的地址):

<int/short/char>* lck;
threadFunc()
{
    loop 10,000,000 times
    {
        spin_lock_8/16/32 (lck);
        spin_unlock(lck);
    }
}
main()
{
    lck = (char/short/int*)_aligned_malloc(4, 4);//Ensures memory alignment
    start 1 thread running threadFunc and measure time;
    start 2 threads running threadFunc and measure time;
    start 4 threads running threadFunc and measure time;
    _aligned_free(lck);
}

我在具有 2 个物理内核并能够运行 4 个线程的处理器 (Ivy Bridge) 上获得了以毫秒为单位测量的以下结果。

           1 thread    2 threads     4 threads
8-bit      200         700           3200
16-bit     200         500           1400
32-bit     200         900           3400

数据表明所有功能的执行时间相同。但是当多个线程必须检查是否 lck == 0 时，使用 16 位可以明显更快。这是为什么？我不认为它与 lck 的对齐有关？

提前致谢。

最佳答案

据我所知，锁作用于一个字(2 个字节)。它在 486 中首次引入时就是这样写的。

如果你在不同的大小上携带一个锁，它实际上生成了 2 个锁的等价物(双字的锁字 A 和字 B)。对于一个字节，它可能必须阻止第二个字节的锁定，这有点类似于2把锁...

因此您的结果符合 CPU 优化。

关于c++ - WORD 的 cmpxchg 比 BYTE 快，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11977749/

30

4

0

文章推荐： c++ - 使用 MinGW 静态链接到 Windows 上的 libarchive

文章推荐： c++ - 在 Clang/MacOS X 上捕获派生异常类型失败

文章推荐： c++ - Doxygen 私有(private)函数

c# - byte = byte - byte 需要类型转换吗？
我有以下代码: foreach (byte b in bytes) { byte inv = byte.MaxValue - b; // Add the new value to a
Java文件逆向读写【byte by byte】
我需要从这个文本文件source.txt中读取内容并将内容反向写入这个文本文件destination.txt。读取和写入必须使用逐字节完成! 我使用 BufferedReader 和 Buffered
java - 在 Java 中存储颜色 - byte;byte;byte vs. byte[3] vs int
我需要存储大量 RGB 颜色对象。对于某些常见用途，这些占用了我的应用程序总内存的 8% 到 12%。我目前将其定义如下: class MyColor { byte red; byte green;
java - Bytes.toString(bytes) 和 bytes.toString() 有什么区别？
我有一个由字节数组表示的整数。 byte[] result = getResult(); resultInt1 = Integer.parseInt(Bytes.toString(result));/
rust - 如何从 std::string::String 获取 bytes::bytes::Bytes？
我正在尝试使用 Rusoto 库调用 AWS Lambda 函数。该请求有一个 JSON 编码的有效负载，我目前将其作为一个字符串，但该库为此坚持使用 bytes::bytes::Bytes 结构。我
rust - 如何通过 futures:stream::Stream 发送 bytes::bytes::Bytes？
我正在尝试基于 Tokio's example 编写一个 TCP 服务器. 当我尝试发送缓冲区时，编译器返回错误 0277。我的代码:(playground) extern crate tokio;
c# - 是否可以将 IList> 转换为 byte[] 而无需枚举列表并添加到新的 byte[]？
我知道我可以通过 IList 进行枚举，例如: public byte[] ConvertToByteArray(IList> list) { IList newList = new List
go - bytes.String() 与 bytes.Bytes() 在 Go 中
考虑这样一个文本文件: Some text here. --- More text another line. --- Third part of text. 我想把它分成三部分，用---分隔符分开。
java - 为什么 byte += 1 编译但 byte = byte + 1 不编译？
如果我有一个字节变量:byte b = 0; 为什么以下工作: b++; b += 1; // compiles ...但这不是吗？ b = b + 1; // compile er
java - 创建自定义 getColor(byte r, byte g, byte b) 方法
我有一个简单的字节数组，我想从中获取颜色。我的计划是用红色表示三位，绿色表示三位，蓝色表示两位。 8 位。我认为颜色是正确的: 如有错误请指正 byte[] colours = new byte[
java - 我有两个 byte[] ，我需要比较这个 byte[] 之间的字符串，是否需要显式转换 new String(byte[])
我的目标是比较两个字节数组中的两个字符串值。它实际上需要创建两个新的字符串对象才能使用 contains 方法。是选择正确还是有什么办法可以使用优化方式而不使用新的关键字。 if(new String
arrays - [] byte {10}或[] byte(“\n”)与[] byte {92，110}
我正在使用github.com/tarm/serial来连接一些串行仪器。在开发过程中，我使用/dev/ttyp0和/dev/ptyp0对，其中go进程连接到一个，我使用screen连接到另一个。我编
byte - "half-byte"是否真的用作术语？
好的，所以如果一个字节是 8 位，那么半字节就是 4 位。并且您可以将四分之一字节作为 2 位(尽管我想，如果有的话，它会被称为双位)。虽然这是一致的，但如果我使用这个词，有人会感到困惑(或惊讶)吗
java - byte[] 到字符串并返回 byte[]
我在解释文件时遇到问题。文件构建如下: "name"-@-"date"-@-"author"-@-"signature" 签名是一个字节数组。当我读回文件时，我将其解析为 String 并拆分它: m
c++ - "by the bytes"与 "in bytes"
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
Java:byte[] 到 Byte[]
Java 让我很难过，因为它需要 ArrayList 的包装类秒。我将如何添加 byte[]到 ArrayList ？最佳答案 LOL 认为我必须包装所有东西。 ArrayList作品。谢谢一晒。
postgresql - Postgres : How to convert 16 bytes into 4 bytes by XOR-ing every 4 bytes
我有一个 16 字节的 md5 散列，我需要使用 XOR 将其“折叠”成 4 字节数据:{1st 4 bytes} XOR {2nd 4 bytes} XOR {3rd 4 bytes} XOR {4
linux - 对 "three successive writes: bytes 10, bytes 32, bytes 54"感到困惑？
我正在学习SMSC smc91cx驱动代码，我学习了如何根据Application Note 9-6的说明编写smc91c111网卡的测试代码。 .我无法理解“传输数据包”下的以下说明: Write
java - 我可以使用 addAll Collection 方法添加所有元素(类型 :byte) from arrays(byte[]) to a List of type Byte?
我必须附加(可变数量的)字节数组。集合似乎只适用于包装类，即 Byte。大约 20 小时后，我想到了这个，并且它有效，但我想知道它是否可以改进(添加到列表，但欢迎任何其他改进建议:)，即 Collec
c - 通过 'insert bytes' 使 'remove bytes' 和 'insert bytes' 一起工作，并具有正/负偏移量
我有两个基本相同的操作: insert_bytes(from, count) delete_bytes(start, stop) -> delete_bytes(from, count) insert

首页

博学

6Ren·AI

商城

c++ - WORD 的 cmpxchg 比 BYTE 快