gpt4 book ai didi

linux - ENQCMD 指令的好处和微操作是什么?

转载 作者:行者123 更新时间:2023-12-05 04:28:50 25 4
gpt4 key购买 nike

ENQCMDMOVDIR64B是 Intel DSA 中的两条指令。

MOVDIR64B reads 64-bytes from the source memory address and performs a 64-byte direct-store operation to the destination address. The ENQCMD instruction allows software to write commands to enqueue registers, which are special device registers accessed using memory-mapped I/O (MMIO).

我的问题是 - 设计这两条指令的目的是什么?

根据我的理解,设置内存映射IO区(寄存器)需要操作系统支持,即设备驱动程序。设置MMIO区域后,我们可以使用write()系统调用来访问它,这也是在设备驱动程序中实现的。对于一般架构,Linux 支持iowrite64() 一次写入8 个字节的值。因此,如果我们要写入 64 个字节,需要调用 iowrite64() 8 次。

MOVDIR64B 的帮助下,对于 Intel DSA,一个 new API已创建 - __iowrite512() 以原子方式写入 64 个字节。

我同意后一种至少比前一种更有效率,但我对传输数据所需的时间感到困惑。

考虑以下情况:如果给定一个支持MOVDIR64BENQCMD 的设备(Intel DSA),假设我们要将 64 字节的数据从内存传输到MMIO 寄存器。有两种选择:iowrite64() 8次(使用循环);或 __iowrite512() 一次。后一个会比前一个快8倍吗?

我的想法是8倍差的可能性较小,但后者会更快。我可以知道它会多快吗?它记录在任何地方吗?我没有英特尔 DSA,所以我不确定如何测试它。

除此之外,ENQCMD 还有哪些其他好处?会不会分解成几个微操作?如果是,那么执行 ENQCMD 的微操作是什么?

最佳答案

iowrite64 使用 UC 访问 MMIO 空间,因此写入是序列化的,而不是流水线。也就是说,单个 CPU 线程一次只能执行一个 UC 写入,并且 CPU 不会继续执行,直到 MMIO 写入完成。

MOVDIR64B 有可能比单个 iowrite64 更快,因为它使用 WC 内存类型而不是 UC(即使目标地址是 UC)。 CPU发出write后,就可以继续执行了。多个直接商店可以流式传输到设备。这意味着多个直接存储可以从单个 CPU 线程同时运行。 MOVDIRI 也有这种行为。

据我所知,无论大小(1 到 64 字节),实际将数据传输到目的地的时间都是相同的。当然,这取决于 SoC 内数据路径的宽度,对于不同的实现可能会有所不同。

MOVDIR64B 的主要优点是描述符一次全部到达设备,而不是分段到达。设备不必担心接收部分描述符或接收交错的两个描述符的部分。事实上,英特尔 DSA 会忽略对门户的小于 64 字节的写入。

为了充分发挥流式写入的优势,来自单个 CPU 线程的每个 MOVDIR64B 的目标地址应该不同。每个英特尔 DSA 门户都是一个 4096 字节的页面,因此每个门户内有 64 个唯一地址。来自单个 CPU 的描述符写入可以跨 64 个地址 strip 化。 (来自多个 CPU 的写入使用相同地址还是不同地址并不重要,但通常您不会期望多个 CPU 在 DSA 中使用相同的专用 WQ。)

ENQCMD 允许设备响应软件,无论它是否接受描述符。这允许多个应用程序使用相同的共享 WQ,而不会有描述符因共享 WQ 已满而丢失的风险。应用程序可以在没有任何驱动程序参与(设置后)的情况下提交描述符,并且应用程序之间没有任何锁定或通信。

关于linux - ENQCMD 指令的好处和微操作是什么?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/72506541/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com