c - 如何使用缓存线原子性在 CPU 之间复制多个数据元素？-6ren

c - 如何使用缓存线原子性在 CPU 之间复制多个数据元素？

转载作者：塔克拉玛干更新时间：2023-11-03 01:54:39

我正在尝试为 CPU 之间的多个数据元素实现原子副本。我将多个数据元素打包到一个缓存行中，以原子方式操作它们。所以我写了下面的代码。

在这段代码中，(使用 -O3 编译)我将全局结构数据对齐到单个缓存行中，并将元素设置在 CPU 中，然后是存储屏障。这是为了使其他 CPU 全局可见。

同时，在另一个 CPU 中，我使用负载屏障原子地访问缓存线。我的期望是读取器(或消费者)CPU 应该将数据缓存行带入其自己的缓存层次结构 L1、L2 等。因此，由于在下一次读取之前我不会再次使用负载屏障，因此数据的元素将是相同的，但它不能按预期工作。我不能在这段代码中保持缓存线的原子性。编写器 CPU 似乎将元素一 block 一 block 地放入缓存线。怎么可能？

#include <emmintrin.h>
#include <pthread.h>
#include "common.h"

#define CACHE_LINE_SIZE             64

struct levels {
    uint32_t x1;
    uint32_t x2;
    uint32_t x3;
    uint32_t x4;
    uint32_t x5;
    uint32_t x6;
    uint32_t x7;
} __attribute__((aligned(CACHE_LINE_SIZE)));

struct levels g_shared;

void *worker_loop(void *param)
{
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(15, &cpuset);

    pthread_t thread = pthread_self();

    int status = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
    fatal_relog_if(status != 0, status);

    struct levels shared;
    while (1) {

        _mm_lfence();
        shared = g_shared;

        if (shared.x1 != shared.x7) {
            printf("%u %u %u %u %u %u %u\n",
                    shared.x1, shared.x2, shared.x3, shared.x4, shared.x5, shared.x6, shared.x7);
            exit(EXIT_FAILURE);
        }
    }

    return NULL;
}

int main(int argc, char *argv[])
{
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(16, &cpuset);

    pthread_t thread = pthread_self();

    memset(&g_shared, 0, sizeof(g_shared));

    int status = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
    fatal_relog_if(status != 0, status);

    pthread_t worker;
    int istatus = pthread_create(&worker, NULL, worker_loop, NULL);
    fatal_elog_if(istatus != 0);

    uint32_t val = 0;
    while (1) {
        g_shared.x1 = val;
        g_shared.x2 = val;
        g_shared.x3 = val;
        g_shared.x4 = val;
        g_shared.x5 = val;
        g_shared.x6 = val;
        g_shared.x7 = val;

        _mm_sfence();
        // _mm_clflush(&g_shared);

        val++;
    }

    return EXIT_SUCCESS;
}

输出如下

3782063 3782063 3782062 3782062 3782062 3782062 3782062

更新 1

我使用 AVX512 更新了如下代码，但问题仍然存在。

#include <emmintrin.h>
#include <pthread.h>
#include "common.h"
#include <immintrin.h>

#define CACHE_LINE_SIZE             64

/**
 * Copy 64 bytes from one location to another,
 * locations should not overlap.
 */
static inline __attribute__((always_inline)) void
mov64(uint8_t *dst, const uint8_t *src)
{
        __m512i zmm0;

        zmm0 = _mm512_load_si512((const void *)src);
        _mm512_store_si512((void *)dst, zmm0);
}

struct levels {
    uint32_t x1;
    uint32_t x2;
    uint32_t x3;
    uint32_t x4;
    uint32_t x5;
    uint32_t x6;
    uint32_t x7;
} __attribute__((aligned(CACHE_LINE_SIZE)));

struct levels g_shared;

void *worker_loop(void *param)
{
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(15, &cpuset);

    pthread_t thread = pthread_self();

    int status = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
    fatal_relog_if(status != 0, status);

    struct levels shared;
    while (1) {
        mov64((uint8_t *)&shared, (uint8_t *)&g_shared);
        // shared = g_shared;

        if (shared.x1 != shared.x7) {
            printf("%u %u %u %u %u %u %u\n",
                    shared.x1, shared.x2, shared.x3, shared.x4, shared.x5, shared.x6, shared.x7);
            exit(EXIT_FAILURE);
        } else {
            printf("%u %u\n", shared.x1, shared.x7);
        }
    }

    return NULL;
}

int main(int argc, char *argv[])
{
    cpu_set_t cpuset;
    CPU_ZERO(&cpuset);
    CPU_SET(16, &cpuset);

    pthread_t thread = pthread_self();

    memset(&g_shared, 0, sizeof(g_shared));

    int status = pthread_setaffinity_np(thread, sizeof(cpu_set_t), &cpuset);
    fatal_relog_if(status != 0, status);

    pthread_t worker;
    int istatus = pthread_create(&worker, NULL, worker_loop, NULL);
    fatal_elog_if(istatus != 0);

    uint32_t val = 0;
    while (1) {
        g_shared.x1 = val;
        g_shared.x2 = val;
        g_shared.x3 = val;
        g_shared.x4 = val;
        g_shared.x5 = val;
        g_shared.x6 = val;
        g_shared.x7 = val;

        _mm_sfence();
        // _mm_clflush(&g_shared);

        val++;
    }

    return EXIT_SUCCESS;
}

最佳答案

I used an load barrier to access the cacheline atomically

不，屏障不会产生原子性 .他们只命令您自己的操作，而不是阻止其他线程的操作出现在我们自己的两个线程之间。

当另一个线程的存储在我们的两个负载之间变得可见时，就会发生非原子性。 lfence无能为力。
lfence这是没有意义的；它只会使运行该线程的 CPU 停止，直到它在执行加载之前耗尽其 ROB/RS。 ( lfence 序列化执行，但对内存排序没有影响，除非您使用来自 WC 内存的 NT 加载，例如视频 RAM)。

您的选择是:

认识到这是一个 X-Y 问题并做一些不需要 64 字节原子加载/存储的事情 .例如原子地更新指向非原子数据的指针。一般情况是 RCU ，或者可能是使用循环缓冲区的无锁队列。

或者

使用软件锁来获得逻辑原子性(如 _Atomic struct levels g_shared; 使用 C11)，以便同意通过尊重锁进行合作的线程。

如果读取次数多于更改次数，则 SeqLock 可能是该数据的不错选择 ，或者特别是对于单个作者和多个读者。读者在可能撕裂时重试；使用足够的内存排序在读取之前/之后检查序列号。见 Implementing 64 bit atomic counter with 32 bit atomics对于 C++11 实现； C11 更容易，因为 C 允许从 volatile 赋值。结构为非 volatile暂时的。

或硬件支持的 64 字节原子性:

某些 CPU 上可用的 Intel 事务性内存 (TSX)。这甚至会让你
对其执行原子 RMW，或从一个位置原子读取并写入另一个位置。但更复杂的交易更有可能中止。将 4x 16 字节或 2x 32 字节负载放入事务中应该希望不会经常中止，即使在争用情况下也是如此。将商店分组到单独的事务中是安全的。 (希望编译器足够聪明，可以在加载数据仍在寄存器中的情况下结束事务，因此它也不必原子地存储到堆栈上的本地。)

有用于事务内存的 GNU C/C++ 扩展。 https://gcc.gnu.org/wiki/TransactionalMemory

CPU 上的 AVX512(允许完整的缓存行加载或存储)恰好以一种使对齐的 64 字节加载/存储原子的方式实现它。 除了 lock cmpxchg16b 之外，没有纸上保证任何比 8 字节加载/存储更宽的东西在 x86 上都是原子的。和 movdir64b .

在实践中，我们相当确定像 Skylake 这样的现代英特尔 CPU 在内核之间以原子方式传输整个缓存线，这与 AMD 不同。而且我们知道，在 Intel(不是 AMD)上，一个不跨越缓存线边界的 vector 加载或存储确实会对 L1d 缓存进行单次访问，在同一时钟周期内传输所有位。所以对齐 vmovaps zmm, [mem]在 Skylake-avx512 上实际上应该是原子的，除非你有一个奇特的芯片组，它以一种会造成撕裂的方式将许多插槽粘合在一起。 (多插槽 K10 与单插槽 K10 是一个很好的警示故事:Why is integer assignment on a naturally aligned variable atomic on x86?)

MOVDIR64B - 仅适用于商店部分的原子，并且仅在 Intel Tremont(下一代 Goldmont 继任者)上受支持。这仍然没有为您提供进行 64 字节原子加载的方法。此外，它是一个缓存绕过存储，因此不适合内核间通信延迟。我认为用例正在生成一个完整的 PCIe 事务。

另见 SSE instructions: which CPUs can do atomic 16B memory operations?回复:SIMD 加载/存储缺乏原子性保证。 CPU 供应商出于某种原因没有选择提供任何书面保证或方法来检测 SIMD 加载/存储何时是原子的，即使测试表明它们在许多系统上(当您不跨越缓存线边界时)。 )

关于c - 如何使用缓存线原子性在 CPU 之间复制多个数据元素？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/57006271/

文章推荐： c++ - 为什么按降序排序与升序排序时快速排序需要更长的时间

文章推荐： linux - Bash 将 pid 内核增加到无限大循环

文章推荐： linux - Guile 2.2的POSIX包如何使用？

cpu-usage - CPU 使用率和 CPU 使用率之间的区别？
我想知道在谈到 CPU 使用率和 CPU 利用率时，术语是否存在科学差异。我觉得这两个词都被用作同义词。它们都描述了 CPU 时间和 CPU 容量之间的关系。 Wikipedia称之为 CPU 使用率
cpu - CPU 指令重新排序的跟踪
我研究了一些关于处理器和 Tomasulo 算法的指令重新排序的内容。为了更深入地了解这个主题，我想知道是否有任何方法可以(获取跟踪)查看为给定程序完成的实际动态重新排序？我想给出一个输入程序并查
cpu-architecture - 本地 CPU 可能会降低远程 CPU 的数据包接收性能
我有一台配备 2 个 Intel Xeon CPU E5-2620 (Sandy Bridge) 和 10Gbps 82599 NIC(2 个端口)的服务器，用于高性能计算。从 PCI 关联性中，我看
cpu - 用户 CPU 时间 vs 系统 CPU 时间？
您能详细解释一下“用户 CPU 时间”和“系统 CPU 时间”吗？我读了很多，但我不太理解。最佳答案区别在于时间花在用户空间还是内核空间。用户 CPU 时间是处理器运行程序代码(或库中的代码)所花
cpu - 如何确定 CPU 是否与 ARM v5 cpu 指令兼容
我想知道如何识别 CPU 是否与 ARM v5 指令集兼容。假设 ARM v7 指令与 ARM v5 兼容是否正确？最佳答案您可以阅读 CPUID base register获得PARTNO。然
c - 如何在单个 CPU 的多个 cpu 内核上设置亲和性而不是在多个 CPU 上？
我目前在具有多个六核 CPU 的服务器上使用 C 多线程。我想将我的一些线程的亲和性设置为单个 CPU 的各个核心。我使用过 pthread_setaffinity_np() 和 sched_seta
android - 在traceview中Incl CPU Time，Excl CPU Time，Incl Real CPU Time，Excl Real CPU Time是什么意思？
1) 独占时间是在方法中花费的时间2) 包含时间是在方法中花费的时间加上在任何被调用函数中花费的时间3)我们称调用方法为“ parent ”，称方法为“子”。引用链接:Click here 这里的问题
c - 编写一段代码，该代码在新 cpu 上比在旧 cpu 上运行的 cpu 周期更多
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
cpu - 编译器完成的指令重新排序与 cpu 完成的指令重新排序之间有什么关系？
好的，所以编译器可以出于性能原因自由地重新排序代码片段。让我们假设一些代码片段，在没有应用优化的情况下直接翻译成机器代码，看起来像这样: machine_instruction_1 machine_i
cpu - "CPU jumps"是什么意思？
我在 zabbix 中有以下默认图表，但我不知道如何解释这些值。谁能解释一下？最佳答案操作系统是一件非常忙碌的事情，尤其是当你让它做某事时(即使你没有做)。当我们看到一个活跃的企业环境时，总会发生
cpu - 缓存是否具有 CPU 的字节序？
换句话说，L1、L2、L3 等缓存是否总是反射(reflect) CPU的字节序 ? 或者总是将数据存储在某些的缓存中更有意义吗？特定字节序 ? 有没有总体设计决策 ? 最佳答案大多数现代缓存不会
cpu - 现代 CPU 是否跳过乘法为零？
我想知道当前的 cpus 是否避免在其中至少一个为零时将两个数字相乘。谢谢最佳答案这取决于 CPU 和(在某些情况下)操作数的类型。较旧/较简单的 CPU 通常使用如下乘法算法: integer
cpu - CUDA 回退到 CPU？
我有一个 CUDA 应用程序，它在一台计算机(配备 GTX 275)上运行良好，而在另一台配备 GeForce 8400 的计算机上运行速度慢了大约 100 倍。我怀疑有某种回退使代码实际上在 CPU
cpu - 堆栈宽度是否始终与 CPU 寄存器大小相同？
例如，对于 8 位 CPU，堆栈大小预计为 8 位宽，16 位 CPU 与 16 位堆栈宽度，以及 32 位、64 位 CPU，等等。是否适用于所有架构？最佳答案 CPU 具有数据总线和地址总线。它
cpu - SIMD 是否需要多核 CPU？
实现 SIMD 是否需要多核 CPU？在阅读有关 SIMD 的维基百科时，我发现了以下短语“多处理元素”。那么这句话和“多核CPU”有什么区别呢？最佳答案不，每个内核通常都可以执行指令集中的大多
cpu - 了解 CPU 流水线阶段与指令吞吐量
我遗漏了一些基本的东西。 CPU 流水线:在基本层面上，为什么指令需要不同数量的时钟周期才能完成，为什么有些指令在多级 CPU 中只需要 1 个周期？除了明显的“不同的指令需要不同的工作量才能完成”
cpu - 超线程 CPU 是实现并行还是仅实现并发？
超线程 CPU 是实现并行还是仅实现并发(上下文切换)？我的猜测是没有并行性，只有通过上下文切换的并发性。最佳答案单个物理 CPU 具有超线程的核心显示为两个逻辑 CPU 到操作系统。 CPU
cpu - 理解 cpu 信息
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
cpu - 哪些 CPU 指令最耗电？
背景是这样的:下周我们的办公室将有一天因为维护而没有暖气。预计室外温度在 7 至 12 摄氏度之间，因此可能会变冷。可移植电取暖器数量太少，无法满足所有人的需求。但是，在我大约 6-8 平方米的办公
Docker cpu 共享并保证容器的最小分配 CPU
我开发了一个应用程序，该应用程序在我的开发箱上的三个容器中运行，该开发箱具有带超线程的四核，这意味着系统和 docker 使用 8 个核心。容器的 CPU 分配由 docker-compose 完成

塔克拉玛干

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

c - 如何使用缓存线原子性在 CPU 之间复制多个数据元素？