c++ - float 学矢量化，但整数数学不-6ren

c++ - float 学矢量化，但整数数学不

转载作者：太空狗更新时间：2023-10-29 19:37:07

25

4

我有一个紧凑的内部循环，它消耗了大量的 CPU 资源。所以我正在尝试优化它。我有两个版本的代码，一个对 float 进行运算，另一个对 uint8_t 进行运算。浮点版本更快一些，因为它进行了矢量化，而整数数学则没有。无论如何强制整数数学矢量化？那有可能吗？最后，有用吗？还是整数数学被高估了？

#include <algorithm>
#include <array>
typedef std::array<float, 3> Vec3F;
Vec3F v3fSpread(Vec3F const& source, Vec3F dest, float drop) {
  if (source[0] <= dest[0] + drop && source[1] <= dest[1] + drop && source[2] <= dest[2] + drop) {
    return dest;
  } else {
    float denom = std::max(source[0], std::max(source[1], source[2]));
    dest[0] = std::max(source[0] - drop * source[0] / denom, dest[0]);
    dest[1] = std::max(source[1] - drop * source[1] / denom, dest[1]);
    dest[2] = std::max(source[2] - drop * source[2] / denom, dest[2]);
    return dest;
  }
}

其中汇编成(56行):

v3fSpread(std::array<float, 3ul> const&, std::array<float, 3ul>, float):
movq    %xmm0, -40(%rsp)
movaps  %xmm2, %xmm0
movd    %xmm1, %rax
movss   -40(%rsp), %xmm6
movl    %eax, -32(%rsp)
movss   (%rdi), %xmm1
addss   %xmm6, %xmm0
movss   -36(%rsp), %xmm7
movss   -32(%rsp), %xmm8
movss   4(%rdi), %xmm3
ucomiss %xmm1, %xmm0
jb  .L24
movaps  %xmm2, %xmm0
movss   8(%rdi), %xmm4
addss   %xmm7, %xmm0
ucomiss %xmm3, %xmm0
jae .L4
.L5:
movaps  %xmm4, %xmm0
movaps  %xmm1, %xmm5
maxss   %xmm3, %xmm0
mulss   %xmm2, %xmm5
maxss   %xmm1, %xmm0
divss   %xmm0, %xmm5
subss   %xmm5, %xmm1
movaps  %xmm2, %xmm5
mulss   %xmm3, %xmm5
mulss   %xmm4, %xmm2
maxss   %xmm1, %xmm6
divss   %xmm0, %xmm5
movss   %xmm6, -24(%rsp)
divss   %xmm0, %xmm2
subss   %xmm5, %xmm3
maxss   %xmm3, %xmm7
movss   %xmm7, -20(%rsp)
movq    -24(%rsp), %xmm0
subss   %xmm2, %xmm4
maxss   %xmm4, %xmm8
movss   %xmm8, -16(%rsp)
movd    -16(%rsp), %xmm1
ret
 .L24:
movss   8(%rdi), %xmm4
jmp .L5
.L4:
movaps  %xmm2, %xmm0
addss   %xmm8, %xmm0
ucomiss %xmm4, %xmm0
jb  .L5
movss   %xmm6, -24(%rsp)
movss   %xmm7, -20(%rsp)
movss   %xmm8, -16(%rsp)
movq    -24(%rsp), %xmm0
movd    -16(%rsp), %xmm1
ret

和:

#include <algorithm>
#include <array>
#include <inttypes.h>
typedef std::array<uint8_t, 3> Vec3B;
typedef std::array<int32_t, 3> Vec3I;
Vec3B v3bSpread(Vec3B const& source, Vec3B dest, int32_t drop) {
  Vec3I intSource = {source[0], source[1], source[2]};
  Vec3I intDest = {dest[0], dest[1], dest[2]};
  if (intSource[0] <= intDest[0] + drop && intSource[1] <= intDest[1] + drop && intSource[2] <= intDest[2] + drop) {
    return dest;
  } else { 
    int32_t denom = std::max(intSource[0], std::max(intSource[1], intSource[2]));
    dest[0] = (uint8_t)std::max<int32_t>(intSource[0] - drop * intSource[0] / denom, intDest[0]);
    dest[1] = (uint8_t)std::max<int32_t>(intSource[1] - drop * intSource[1] / denom, intDest[1]);
    dest[2] = (uint8_t)std::max<int32_t>(intSource[2] - drop * intSource[2] / denom, intDest[2]);
    return dest;
  } 
}

其中汇编成(68行):

v3bSpread(std::array<unsigned char, 3ul> const&, std::array<unsigned char, 3ul>, unsigned int):
pushq   %rbx
movzbl  %sil, %r11d
movl    %esi, %ebx
movzbl  (%rdi), %r8d
movzbl  %r11b, %eax
shrw    $8, %bx
addl    %edx, %eax
shrl    $16, %esi
movzbl  1(%rdi), %r10d
movl    %edx, %r9d
movzbl  2(%rdi), %edi
cmpl    %eax, %r8d
ja  .L4
movzbl  %bl, %eax
addl    %edx, %eax
cmpl    %eax, %r10d
jbe .L10
.L4:
cmpl    %edi, %r10d
movl    %edi, %ecx
movl    %r8d, %eax
cmovge  %r10d, %ecx
cmpl    %ecx, %r8d
cmovge  %r8d, %ecx
imull   %r9d, %eax
xorl    %edx, %edx
divl    %ecx
subl    %eax, %r8d
movl    %r10d, %eax
cmpl    %r11d, %r8d
cmovge  %r8d, %r11d
imull   %r9d, %eax
xorl    %edx, %edx
movb    %r11b, -32(%rsp)
divl    %ecx
movzbl  %bl, %edx
subl    %eax, %r10d
movl    %edi, %eax
cmpl    %edx, %r10d
cmovl   %edx, %r10d
imull   %r9d, %eax
xorl    %edx, %edx
movb    %r10b, -31(%rsp)
divl    %ecx
subl    %eax, %edi
movzbl  %sil, %eax
cmpl    %eax, %edi
cmovl   %eax, %edi
movb    %dil, -30(%rsp)
.L6:
movzbl  -31(%rsp), %eax
movzbl  -32(%rsp), %edx
movb    %al, %dh
movzbl  -30(%rsp), %eax
popq    %rbx
salq    $16, %rax
orq %rdx, %rax
ret
.L10:
movzbl  %sil, %eax
addl    %edx, %eax
cmpl    %eax, %edi
ja  .L4
movb    %r11b, -32(%rsp)
movb    %bl, -31(%rsp)
movb    %sil, -30(%rsp)
jmp .L6

最佳答案

是什么让您认为生成的浮点代码是矢量化的？我看到的所有 SSE 指令都是以 -ss 为后缀的，即 Scalar-Single，而不是 Packed-Single。

就向量化此代码的可能性而言，我认为不可能使用 SSEx 向量化整数代码，因为没有 SSE 整数除法指令。

关于c++ - float 学矢量化，但整数数学不，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/11303991/

25

4

0

文章推荐： c++ - 函数中的参数数量未知

文章推荐： python - 在 Python 中查找原始异常的模块名称

文章推荐： python - 你如何强制刷新 wx.Panel？

【数学】主成分分析（PCA）的详细深度推导过程
Based on Deep Learning (2017, MIT) book. 本文基于Deep Learning (2017, MIT)，推导过程补全了所涉及的知识及书中推导过程中跳跃和省
数学:5个具有唯一和的数字
因此，我需要一种方法来弄清楚如何获得5个数字，并且当您将它们中的任意两个相加时，将得出一个总和，您只能通过将这两个特定的数字相加而得到。这是我正在谈论的示例，但有3个数字: 1个 3 5 1 + 3
数学、编程和学习
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visit the he
数学 - 映射数字
如何将 a 和 b 之间的数字线性映射到 c 和 d 之间。也就是说，我希望 2 到 6 之间的数字映射到 10 到 20 之间的数字...但我需要广义的情况。我的脑子快炸了。最佳答案如果您的
JavaScript 数学
嘿，我有一个方程式，我需要弄清楚它是基于图表的数学，其中图表上有两个点，需要获取其余值: 我正在构建一个 javascript 页面，它获取图表上的两个点，但需要吐出图表上的任何位置。它用于根据了解
数学:doxygen 中的场
有谁知道如何用 Doxygen 得到实复场或射影平面的符号，i.o.w 符号，如 IR、IC、IP 等？例如，我尝试了\f$\field{R}\f$，但无法识别。非常感谢您的帮助，G. 最佳答案
math - 数学/物理负责人的最近方法问题
我正在使用 Segment to Segment 最接近方法，该方法将输出两个长度段之间的最近距离。每个段对应一个球体对象的起点和终点。速度只是从一个点到另一个点。即使没有真正的碰撞，最近的方法也可
c - 当以任意顺序给出三个音符时如何解析和弦。数学
我有一个 arduino 连接到 Stradella 系统钢琴 Accordion 。我在左手和弦的 12 个音符中的每一个上都有光学传感器。当我弹奏和弦时，它会触发三个传感器。如果我想让合成器演奏和
libraries - 如何在新包中使用现有库中的现有函数(数学)？
我正在开发一个具有一些简单功能的新包。现在我可以使用已经存在的“math-vectors”库中的函数；特别是“插值”和“反转”。如何在我的新包中使用这些？编写 y:=reverse(...) 显然是不
jquery - 数学 - 除法并留余数
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Integer division in JavaScript 希望这是一个简单的问题，基本上我需要这样做: 分隔线
具有动态字段的 JavaScript 数学
我有一张表格，上面有学校类(class)。此表单上可以有任意数量的类，每个类有 2 个字段。书本费和学费。我有一个名为总计的第三个字段，当他们在其他字段中输入成本时，我想更新该字段。这就是我的设置
javascript - 数学:将一个数字缩放为另一个数字的公式
今天早些时候我问了一个类似的问题，结果发现我只是数学很烂，因为我也无法解决这个问题。我通过宽度/高度计算屏幕比例。我需要一个函数来将结果数字转换为新的比例。例如 function convertN
JavaScript 数学，循环内循环
我有一个起始数字，因此必须仅在开始循环时将该数字乘以一个因子，然后将结果乘以另一个因子的 X 倍，然后必须将循环乘以 Y 次，最后我需要总金额...我认为最好查看数字来了解我需要什么例如，如果我从数
java - 数学、坐标
现在我用 JAVA 遇到了一些问题，但不记得如何获取坐标系之间的长度。例如。A 点 (3,7)B点(7,59) 我想知道如何计算a点和b点之间的距离。非常感谢您的回答。 :-) 最佳答案 A = (
jquery - 数学:将文本输入的总数相加并查找百分比
我有两种类型的文本输入，积极的和可疑的。在将输入到这两种类型的输入中的所有数字相加后，我需要显示多组这些输入的总数。例如:2 个阳性 + 2 个可疑 = 总计:4 然后，我需要从总数中找出积极与可疑的
函数内的 Jquery 数学
我正在尝试将输入金额乘以 3.5%，任何人都可以给我任何想法如何做到这一点吗？ $("#invest_amount").keyup(function() { $('#fee').va
c# - 数学，最大数
有谁知道返回a的最大数的Math方法给定的位数。例如，使用1位数字的最大数字是9，2是99，3是999，4是9999......等等。使用字符串很容易实现，但这并不完全我在找什么。 pri
javascript - KnockoutJS 数学
我是 Knockout 的新手，但仍对它一头雾水，我想知道如何使用两个 KO 变量进行简单的数学运算(加法和乘法)。此刻我有: self.popInc1 = ko.observable('0.3')
javascript - 四舍五入数字javascript - 数学
我在谷歌地图应用程序中有以下内容，并希望显示转换为英尺的海拔高度，但如何向上/向下舍入到最接近的数字？ (消除小数点后的数字)我尝试了 number.toFixed(x) 方法，但似乎什么也没做。 f
JavaScript Vector2d 数学
我最近开始使用 JavaScript 编写小型 Canvas 游戏，并试图全神贯注于 Vector 2d 数学。我了解 Vectors 的基础知识(比如它们代表 2d 空间中具有方向的点，您可以对它们

首页

博学

6Ren·AI

商城

c++ - float 学矢量化，但整数数学不