performance - 为什么 GCC 和 Clang 不使用 cvtss2sd [内存]？-6ren

performance - 为什么 GCC 和 Clang 不使用 cvtss2sd [内存]？

转载作者：行者123 更新时间：2023-12-04 03:21:57

27

4

我正在尝试优化一些应该从内存中读取单精度浮点数并以 double 对它们执行算术的代码。这正在成为一个重要的性能瓶颈，因为将数据以单精度形式存储在内存中的代码实际上是较慢与将数据以 double 形式存储在内存中的等效代码相比。下面是一个玩具 C++ 程序，它捕捉了我的问题的本质:

#include <cstdio>

// noinline to force main() to actually read the value from memory.
__attributes__ ((noinline)) float* GetFloat() {
  float* f = new float;
  *f = 3.14;
  return f;
}

int main() {
  float* f = GetFloat();
  double d = *f;
  printf("%f\n", d);  // Use the value so it isn't optimized out of existence.
}

GCC 和 Clang 都执行 *f 的加载和转换为 double 作为两个单独的指令，即使 cvtss2sd指令支持内存作为源参数。根据 Agner Fog , cvtss2sd r, m执行速度与 movss r, m 一样快在大多数架构上，并避免需要执行 cvtss2sd r, r后记。尽管如此，Clang 会为 main() 生成以下代码:

main    PROC
        push    rbp                                     ; 
        mov     rbp, rsp                                ; 
        call    _Z8GetFloatv                            ;
        movss   xmm0, dword ptr [rax]                   ; 
        cvtss2sd xmm0, xmm0                             ; 
        mov     edi, offset ?_001                       ; 
        mov     al, 1                                   ; 
        call    printf                                  ; 
        xor     eax, eax                                ; 
        pop     rbp                                     ;
        ret                                             ;
main    ENDP

GCC 生成类似的低效代码。为什么这些编译器中的任何一个都不简单地生成类似 cvtss2sd xmm0, dword ptr [rax] 的内容？ ?

编辑:很好的答案，斯蒂芬佳能!我将 Clang 的汇编语言输出用于我的实际用例，将其作为内联 ASM 粘贴到源文件中，对其进行基准测试，然后进行此处讨论的更改并再次对其进行基准测试。我简直不敢相信 cvtss2sd [memory]实际上更慢。

最佳答案

这实际上是一种优化。来自存储器的 CVTSS2SD 使目标寄存器的高 64 位保持不变。这意味着会发生部分寄存器更新，这在许多情况下会导致严重停顿并大大降低 ILP。另一方面，MOVSS 将寄存器的未使用位清零，这是破坏依赖性的，并避免了停顿的风险。

您可能在转换为 double 时遇到瓶颈，但事实并非如此。

我将详细说明为什么部分寄存器更新会带来性能风险。

我不知道实际执行了什么计算，但让我们假设它看起来像这个非常简单的例子:

double accumulator, x;
float y[n];
for (size_t i=0; i<n; ++i) {
    accumulator += x*(double)y[i];
}

循环的“明显”代码生成器看起来像这样:

loop_begin:
  cvtss2sd xmm0, [y + 4*i]
  mulsd    xmm0,  x
  addsd    accumulator, xmm0
  // some loop arithmetic that I'll ignore; it isn't important.

天真地，唯一循环携带的依赖是在累加器更新中，因此渐近地循环应该以 1/( addsd 延迟) 的速度运行，即在当前“典型”x86 内核上每次循环迭代 3 个周期(参见 Agner Fog 的表格或英特尔的优化手册了解更多详细信息)。

但是，如果我们实际查看这些指令的操作，我们会看到 xmm0 的高 64 位， 即使它们对我们感兴趣的结果没有影响 ，形成第二个循环携带的依赖链。每个 cvtss2sd直到前一个循环迭代的 mulsd 的结果才能开始指令可用；这将循环的实际速度限制为 1/( cvtss2sd 延迟 + mulsd 延迟)，或在典型的 x86 内核上每次循环迭代 7 个周期(好消息是您只需支付 reg-reg 转换延迟，因为转换操作被破解为两个μop，负载μop不依赖于 xmm0，所以可以提升)。

我们可以如下写出这个循环的操作，使其更加清晰(我忽略了 cvtss2sd 的负载一半，因为这些微操作几乎不受约束，并且可以或多或少地发生在任何时候):

cycle  iteration 1    iteration 2    iteration 3
------------------------------------------------
0      cvtss2sd
1      .
2      mulsd
3      .
4      .
5      .
6      . --- xmm0[64:127]-->
7      addsd          cvtss2sd(*)
8      .              .
9      .-- accum -+   mulsd
10                |   .
11                |   .
12                |   .
13                |   . --- xmm0[64:127]-->
14                +-> addsd          cvtss2sd
15                    .              .

(*) 我实际上是在简化一些事情；我们不仅需要考虑延迟，还需要考虑端口利用率，以使其准确。然而，仅考虑延迟就足以说明有问题的停顿，所以我保持简单。假设我们在一台拥有无限 ILP 资源的机器上运行。

现在假设我们这样写循环:

loop_begin:
   movss    xmm0, [y + 4*i]
   cvtss2sd xmm0,  xmm0
   mulsd    xmm0,  x
   addsd    accumulator, xmm0
   // some loop arithmetic that I'll ignore; it isn't important.

因为 movss从 xmm0 的内存零位 [32:127] 开始，不再存在对 xmm0 的循环携带依赖，因此正如预期的那样，我们受到累积延迟的约束；稳定状态下的执行看起来像这样:

cycle  iteration i    iteration i+1  iteration i+2
------------------------------------------------
0      cvtss2sd       .
1      .              .
2      mulsd          .              movss 
3      .              cvtss2sd       .
4      .              .              .
5      .              mulsd          .
6      .              .              cvtss2sd
7      addsd          .              .
8      .              .              mulsd
9      .              .              .
10     . -- accum --> addsd          .
11                    .              .
12                    .              .
13                    . -- accum --> addsd

请注意，在我的玩具示例中，在消除部分寄存器更新停顿后，还有很多工作要做来优化有问题的代码。它可以被向量化，并且可以使用多个累加器(以改变发生的特定舍入为代价)来最小化循环携带的累加到累加延迟的影响。

关于performance - 为什么 GCC 和 Clang 不使用 cvtss2sd [内存]？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/16597587/

27

4

0

文章推荐： .net - 从 .Net 3.5 迁移到 4.0 将如何影响我的 WCF 组件？

文章推荐： r - 将特定颜色分配给特定值

文章推荐： activeadmin - 需要二级菜单

文章推荐： maven - Gradle 相当于 maven-dependency-plugin

r - 将 .SD 与重命名的变量与 .SD 列的名称相结合
在我的代码中，我想以编程方式选择一些变量，并以硬编码方式选择和重命名其他一些变量。我知道我可以通过 setnames() 分两步实现这一点。，但我很好奇如何一步完成。我想我很接近它通过 .SDco
r - mean(rnorm(100,mean=0,sd=1)) 不是 0；并且 sd(rnorm(100,mean=0,sd=1)) 不是 1。为什么？
(添加了可重现的示例。) 我对 rnorm 函数有点困惑。我期待 mean(rnorm(100,mean=0,sd=1))为0；和 sd(rnorm(100,mean=0,sd=1))为 1。但给出
r - 将均值和 sd 的数据帧合并为一个数据帧，均值后的括号中为 sd
我想创建一个包含多个不同列的数据框，其中包含平均值，之后 sd 显示在括号中。举个例子: df % group_by(Species) %>% summarise_all(list(~ s
sd-card - 检查 SD 卡运行状况数据(如果有)
我很想知道 SD 卡是否提供类似于“SMART”信息的内容，例如硬盘和 SSD。我有兴趣在 Raspberry PI 中检查 SD 卡的健康信息，以进行预防性更换。我的写入需求非常高，对设备的物理访
android - 如何识别安装在设备中的外部 sd 卡和该设备也有内部 sd 卡？
if (Environment.MEDIA_MOUNTED.equals(Environment.getExternalStorageState())) {
android - 将文件从 SD 卡的文件夹复制到 SD 卡的另一个文件夹
是否可以通过编程将 sd 卡中存在的文件夹复制到存在同一 sd 卡的另一个文件夹？？如果是这样，该怎么做？最佳答案该示例的改进版本: // If targetLocation does not
android - 如何获取外部存储 SD 卡大小(已安装 SD 卡)？
Link :I worked on based on this Link 我添加了这一行来查找尺寸(内部和外部)尺寸， return availableExternalMemorySize/(1024
android - 从 sd 卡中选择图像，调整图像大小并将其保存回 sd 卡
我正在开发一个应用程序，其中我需要从 sd 卡中选择一个图像并在 ImageView 中显示它。现在我希望用户通过单击一个按钮来减小/增加其宽度，然后将其保存回 sd 卡。我已经完成了图像挑选并在
Android - 获取对 SD 卡上任何文件路径具有写入权限的 DocumentFile(已获得 SD 卡权限)
在我的应用程序中，我使用以下 Intent 获得了 SD 卡写入权限。如果用户从系统文件资源管理器中选择 sd 卡文件夹，那么我就有 sd 卡写权限。 Intent intent = new Inte
r - 有什么方法可以将.SD+.SDcols 中的变量名与data.table 中的非.SD 变量名一起保存吗？
给定一个data.table library(data.table) DT = data.table(x=rep(c("b","a","c"),each=3), v=c(1,1,1,2,2,1,1,2
c++ - 在 Arduino 中使用 SD.remove() 和 SD 库
我正在构建一个程序，该程序对 pin0 上的模拟电压进行 10 次测量，并将其打印到日志文件中。当我尝试确保文件为空时，我遇到了这个问题。我正在使用 SD.remove() 来删除以前的日志文件。当我
android - 如何在 KitKat 中将文件写入可移动 SD 卡(不是外部 SD 卡)？
在 Android 的 API > 19 中是否有任何方法可以获取可移动 SD 卡的路径？与外部 SD 卡一样，我们有 Environment.getExternalStorageDirectory
android - 我想检查手机是否包含 SD 卡，如果 SD 卡不可用，以下方法总是返回 true
我使用以下方法检查手机是否包含 SD 卡，但如果 SD 卡不可用，问题总是返回 true，请帮助我。 Boolean isSDPresent = android.os.Environment.getE
c - 使用 SPI 向 SD 写入 block ，来自 SD 的奇怪响应
这是我将 512 字节块写入 SD 卡的代码。代码工作正常，但是当我检查一切正常时(通过阅读 SD 的响应)，我读到 0xFF . 该值应该类似于(来自 SD 引用手册): ‘010’—Data ac
c - epoll:添加到 epoll-fd 的 SD 与事件上的实际 SD 值不同
我有两个线程在 epoll 上运行。一个线程尝试与服务器建立 TCP 连接，使用 EPOLL_CTL_ADD 选项将套接字添加到 epoll-fd。另一个线程负责等待添加到 epoll-fd 的 S
android 1.5，以编程方式将歌曲从/sd card/songs 复制到/sd card/backup
我正在使用 eclipse 模拟器，我想以编程方式将一些 mp3 从 /sdcard/songs 复制到 /sdcard/backup，有什么办法吗？非常感谢任何帮助和代码 fragment !谢谢!
macos - 用于 Macos Catalina 的 Docker 桌面在容器中挂载 SD 卡卷作为循环设备以使用 dd 闪存 SD 卡
我正在使用 Docker Desktop for Mac 版本 2.1.0.4。我有一个 Docker 容器，它是一个 Ubuntu 18.04 Linux VM，里面有 Yocto Build 系统
黑莓删除应用程序时删除 SD 卡文件
好的，这个黑莓应用程序在第一次安装和运行时创建了一个数据库。它安装在 SD 卡上。当我删除应用程序时 - 这个文件仍然存在，我在删除应用程序时找不到任何删除它的方法。有什么建议么？最佳答案应用
sd-card - SPI模式下SD卡写入速度
我有一张 SD 卡(或 SDHC 卡)通过 SPI 模式连接到微 Controller 。我正在使用 Chan’s FAT图书馆。我将来自 8192 字节缓冲区的数据写入其中(由于 RAM 不足，缓冲
R:在删除最小值和最大值后计算每行中选定列的 SD
我想在删除该选择中的最小值和最大值后，计算数据框中每一行在该选择列上的标准差。这是一个例子: set.seed(1) dat dat X1 X2 X3 X4 X5 sd 1 27 5

首页

博学

6Ren·AI

商城

performance - 为什么 GCC 和 Clang 不使用 cvtss2sd [内存]？