assembly - 需要对我的 SSE/Assembly 尝试进行一些建设性的批评-6ren

assembly - 需要对我的 SSE/Assembly 尝试进行一些建设性的批评

转载作者：行者123 更新时间：2023-12-04 14:20:08

我正在将一些代码转换为 SSE，虽然我有正确的输出，但结果证明它比标准 C++ 代码慢。

我需要执行此操作的代码位是:

float ox = p2x - (px * c - py * s)*m;
float oy = p2y - (px * s - py * c)*m;

我得到的 SSE 代码是:

void assemblycalc(vector4 &p, vector4 &sc, float &m, vector4 &xy)
{
    vector4 r;
    __m128 scale = _mm_set1_ps(m);

__asm
{
    mov     eax,    p       //Load into CPU reg
    mov     ebx,    sc
    movups  xmm0,   [eax]   //move vectors to SSE regs
    movups  xmm1,   [ebx]

    mulps   xmm0,   xmm1    //Multiply the Elements

    movaps  xmm2,   xmm0    //make a copy of the array  
    shufps  xmm2,   xmm0,  0x1B //shuffle the array     

    subps   xmm0,   xmm2    //subtract the elements

    mulps   xmm0,   scale   //multiply the vector by the scale

    mov     ecx,    xy      //load the variable into cpu reg
    movups  xmm3,   [ecx]   //move the vector to the SSE regs

    subps   xmm3,   xmm0    //subtract xmm3 - xmm0

    movups  [r],    xmm3    //Save the retun vector, and use elements 0 and 3
    }
}

由于很难阅读代码，我将解释我所做的:

加载 vector4 , xmm0 _____ p = [px , py , px , py ]
多。由 vector4, xmm1 _ cs = [c , c , s , s ]
__________________________多----------------------------
结果，_____________ xmm0 = [pxc, pyc, pxs, pys]

重用结果，xmm0 = [pxc, pyc, pxs, pys]
洗牌结果，xmm2 = [pys, pxs, pyc, pxc]
_____________________减去 - - - - - - - - - - - - - -
结果，xmm0 = [pxc-pys，pyc-pxs，pxs-pyc，pys-pxc]

重用结果，xmm0 = [pxc-pys, pyc-pxs, pxs-pyc, pys-pxc]
加载 m vector4, scale = [m, m, m, m]
__________________________多----------------------------
结果，xmm0 = [(pxc-pys)m, (pyc-px*s)m, (pxs-py*c)m, (pys-px*c)m]

加载 xy vector4, xmm3 = [p2x, p2x, p2y, p2y]
重用, xmm0 = [(pxc-py*s)m, (pyc-px*s)m, (pxs-py*c)m, (pys-px*c)m]
_____________________减去 - - - - - - - - - - - - - -
结果，xmm3 = [p2x-(pxc-py*s)m, p2x-(pyc-px*s)m, p2y-(pxs-py*c)m, p2y-(pys-px*c)*m]

然后 ox = xmm3[0] 和 oy = xmm3[3]，所以我基本上不使用 xmm3[1] 或 xmm3[4]

对于阅读本文的困难，我深表歉意，但我希望有人能够为我提供一些指导，因为标准 C++ 代码的运行时间为 0.001444 毫秒，而 SSE 代码的运行时间为 0.00198 毫秒。

如果我能做些什么来进一步解释/清理一下，请告诉我。我尝试使用 SSE 的原因是因为我运行了数百万次此计算，这是减慢我当前代码速度的一部分。

在此先感谢您的帮助!
布雷特

最佳答案

进行这种矢量化的通常方法是将问题“放在一边”。而不是计算 ox 的单个值和 oy ，你计算四个 ox值和四个 oy值同时进行。这最大限度地减少了浪费的计算和洗牌。

为了做到这一点，你捆绑了几个 x , y , p2x和 p2y值转换为连续数组(即，您可能有一个包含 x 的四个值的数组，一个包含四个 y 的值的数组，等等)。然后你可以这样做:

movups  %xmm0,  [x]
movups  %xmm1,  [y]
movaps  %xmm2,  %xmm0
mulps   %xmm0,  [c]    // cx
movaps  %xmm3,  %xmm1
mulps   %xmm1,  [s]    // sy
mulps   %xmm2,  [s]    // sx
mulps   %xmm3,  [c]    // cy
subps   %xmm0,  %xmm1  // cx - sy
subps   %xmm2,  %xmm3  // sx - cy
mulps   %xmm0,  scale  // (cx - sy)*m
mulps   %xmm2,  scale  // (sx - cy)*m
movaps  %xmm1,  [p2x]
movaps  %xmm3,  [p2y]
subps   %xmm1,  %xmm0  // p2x - (cx - sy)*m
subps   %xmm3,  %xmm2  // p2y - (sx - cy)*m
movups  [ox],   %xmm1
movups  [oy],   %xmm3

使用这种方法，我们在 18 条指令中同时计算 4 个结果，而使用您的方法在 13 条指令中计算单个结果。我们也没有浪费任何结果。

它仍然可以改进；因为无论如何您都必须重新排列数据结构才能使用这种方法，所以您应该对齐数组并使用对齐的加载和存储而不是未对齐的。您应该将 c 和 s 加载到寄存器中并使用它们来处理 x 和 y 的许多向量，而不是为每个向量重新加载它们。为了获得最佳性能，两个或多个向量值的计算应该交错，以确保处理器有足够的工作来防止流水线停顿。

(旁注:它应该是 cx + sy 而不是 cx - sy ？这会给你一个标准的旋转矩阵)

编辑

你对你在什么硬件上进行计时的评论几乎清除了一切:“奔腾 4 HT，2.79GHz”。这是一个非常古老的微架构，在该架构上未对齐的移动和洗牌非常缓慢；您在管道中没有足够的工作来隐藏算术运算的延迟，并且重新排序引擎并不像在较新的微体系结构上那样聪明。

我希望您的矢量代码将证明比 i7 上的标量代码更快，并且可能在 Core2 上也是如此。另一方面，如果可以的话，一次做四个会更快。

关于assembly - 需要对我的 SSE/Assembly 尝试进行一些建设性的批评，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/2923458/

文章推荐： wolfram-mathematica - 在 Mathematica 中取正平方根

java - 寻求资源异步重建的建议/批评
这是建议的解决方案(我确实搜索了相同的解决方案 - 没有成功) public abstract class AsyncCache { /** * an ato
批评 : eval "require $module";
在挖掘一些旧的源代码时，我看到了以下内容: my $module = $some{module}; eval "require $module"; die "Bad module\n$@" if $@
oop - 一些可靠的 OOP 批评？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。想改进这个问题？将问题更新为 on-topic对于堆栈溢出。 3年前关闭。锁定。这个问题及其答案是loc
flash - 在IDE之外显示捕获的错误-过度杀伤/批评？
我设计了以下方法来捕获整个AS3应用程序中的错误: 在Document类中，定义以下方法: //This is the handler for listening for errors protect
c - 这是一个体面的自制互斥锁实现吗？批评？潜在问题？
我想知道是否有人看到任何可能导致此代码出现问题的内容。我知道我可以使用其他方法/API 调用来完成此操作，但我正在尝试为我自己的平台独立性奠定基础？/跨平台互斥框架。显然我需要做一些#ifdef 并
javascript - 响应式移动菜单和 Javascript——征求意见、批评
我一直在阅读大量有关实现响应式移动下拉菜单的不同方法的资料。纯 CSS 解决方案对我来说似乎有点笨拙，但我讨厌依赖 javascript 来处理像导航菜单这样重要的事情。我想到的是使用 javascr
common-lisp - 选定的技术。 Web 应用程序堆栈 - 批评/评论？
我即将构建我的第一个基于 Lisp 的严肃项目:一个需要扩展到数以万计的用户(不是同时的 - 最多可能是数百个同时)的 Web 应用程序。我打算使用的堆栈如下所示: Weblocks具有 Berke
php - 批评 PHP 的 PHP 代码/PerlCritic？
我正在寻找 PerlCritic 的等价物对于 PHP。 PerlCritc 是一个静态源代码分析器，它对代码进行 qritiques，并就从未使用的变量到处理数据的不安全方式到几乎所有内容的所有内容
批评 : How can I resolve '^Magic variable "$ENV"should be assigned as "local"'?
我正在编写一个 perl 脚本，该脚本需要在调用外部程序之前设置许多环境变量。我的代码有形式 $ENV{'VAR1'} = "value1"; $ENV{'VAR2'} = "value2

行者123

个人简介

我是一名优秀的程序员,十分优秀！

作者热门文章

滴滴打车优惠券免费领取

全站热门文章

首页

博学

6Ren·AI

商城

assembly - 需要对我的 SSE/Assembly 尝试进行一些建设性的批评