gpt4 book ai didi

c++ - x64 CPU 上的原子 16 字节读取

转载 作者:可可西里 更新时间:2023-11-01 15:18:23 25 4
gpt4 key购买 nike

我需要以原子方式读/写 16 个字节。我只使用 cmpxchg16 进行写作,它在所有 x64 处理器上都可用,除了我认为是一个不起眼的 AMD 处理器。

现在的问题是对齐的 16 字节值,仅使用 cmpxchg16 进行修改(它就像一个完整的内存屏障)是否有可能读取一半旧数据和一半新数据的 16 字节位置?

只要我用 SSE 指令读取(所以线程不能在读取中间中断)我认为读取是不可能的(即使在多处理器 numa 系统中)看到不一致的数据。我认为它必须是原子的。

我假设当执行 cmpxchg16 时,它会原子地修改 16 个字节,而不是通过写入两个 8 字节的 block ,其他线程有可能在两者之间进行读取(老实说,我不明白它是怎么做到的)如果它不是原子的就可以工作。)

我说的对吗?如果我错了,有没有办法在不求助于锁定的情况下进行原子 16 字节读取?

注意:有一个couple similar questions here但他们不处理写入仅使用 cmpxchg16 完成的情况,所以我觉得这是一个单独的、未回答的问题。

编辑:实际上我认为我的推理是错误的。 SSE 加载指令可以作为两次 64 位读取执行,并且 cmpxchg16 有可能在两次读取之间由另一个处理器执行。

最佳答案

typedef struct
{
unsigned __int128 value;
} __attribute__ ((aligned (16))) atomic_uint128;

unsigned __int128
atomic_read_uint128 (atomic_uint128 *src)
{
unsigned __int128 result;
asm volatile ("xor %%rax, %%rax;"
"xor %%rbx, %%rbx;"
"xor %%rcx, %%rcx;"
"xor %%rdx, %%rdx;"
"lock cmpxchg16b %1" : "=A"(result) : "m"(*src) : "rbx", "rcx");
return result;
}

这应该可以解决问题。 typedef 确保正确对齐。 cmpxchg16b需要数据在 16 字节边界上对齐。

cmpxchg16b 将测试 *src 是否包含零,如果是则写入零 (nop)。在任何一种情况下,正确的值都会在之后出现在 RAX:RDX 中。

上面的代码的计算结果很简单

push   %rbx
xor %rax,%rax
xor %rbx,%rbx
xor %rcx,%rcx
xor %rdx,%rdx
lock cmpxchg16b (%rdi)
pop %rbx
retq

关于c++ - x64 CPU 上的原子 16 字节读取,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/9726566/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com