- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个紧凑的内部循环,它消耗了大量的 CPU 资源。所以我正在尝试优化它。我有两个版本的代码,一个对 float 进行运算,另一个对 uint8_t
进行运算。浮点版本更快一些,因为它进行了矢量化,而整数数学则没有。无论如何强制整数数学矢量化?那有可能吗?最后,有用吗?还是整数数学被高估了?
#include <algorithm>
#include <array>
typedef std::array<float, 3> Vec3F;
Vec3F v3fSpread(Vec3F const& source, Vec3F dest, float drop) {
if (source[0] <= dest[0] + drop && source[1] <= dest[1] + drop && source[2] <= dest[2] + drop) {
return dest;
} else {
float denom = std::max(source[0], std::max(source[1], source[2]));
dest[0] = std::max(source[0] - drop * source[0] / denom, dest[0]);
dest[1] = std::max(source[1] - drop * source[1] / denom, dest[1]);
dest[2] = std::max(source[2] - drop * source[2] / denom, dest[2]);
return dest;
}
}
其中汇编成(56行):
v3fSpread(std::array<float, 3ul> const&, std::array<float, 3ul>, float):
movq %xmm0, -40(%rsp)
movaps %xmm2, %xmm0
movd %xmm1, %rax
movss -40(%rsp), %xmm6
movl %eax, -32(%rsp)
movss (%rdi), %xmm1
addss %xmm6, %xmm0
movss -36(%rsp), %xmm7
movss -32(%rsp), %xmm8
movss 4(%rdi), %xmm3
ucomiss %xmm1, %xmm0
jb .L24
movaps %xmm2, %xmm0
movss 8(%rdi), %xmm4
addss %xmm7, %xmm0
ucomiss %xmm3, %xmm0
jae .L4
.L5:
movaps %xmm4, %xmm0
movaps %xmm1, %xmm5
maxss %xmm3, %xmm0
mulss %xmm2, %xmm5
maxss %xmm1, %xmm0
divss %xmm0, %xmm5
subss %xmm5, %xmm1
movaps %xmm2, %xmm5
mulss %xmm3, %xmm5
mulss %xmm4, %xmm2
maxss %xmm1, %xmm6
divss %xmm0, %xmm5
movss %xmm6, -24(%rsp)
divss %xmm0, %xmm2
subss %xmm5, %xmm3
maxss %xmm3, %xmm7
movss %xmm7, -20(%rsp)
movq -24(%rsp), %xmm0
subss %xmm2, %xmm4
maxss %xmm4, %xmm8
movss %xmm8, -16(%rsp)
movd -16(%rsp), %xmm1
ret
.L24:
movss 8(%rdi), %xmm4
jmp .L5
.L4:
movaps %xmm2, %xmm0
addss %xmm8, %xmm0
ucomiss %xmm4, %xmm0
jb .L5
movss %xmm6, -24(%rsp)
movss %xmm7, -20(%rsp)
movss %xmm8, -16(%rsp)
movq -24(%rsp), %xmm0
movd -16(%rsp), %xmm1
ret
和:
#include <algorithm>
#include <array>
#include <inttypes.h>
typedef std::array<uint8_t, 3> Vec3B;
typedef std::array<int32_t, 3> Vec3I;
Vec3B v3bSpread(Vec3B const& source, Vec3B dest, int32_t drop) {
Vec3I intSource = {source[0], source[1], source[2]};
Vec3I intDest = {dest[0], dest[1], dest[2]};
if (intSource[0] <= intDest[0] + drop && intSource[1] <= intDest[1] + drop && intSource[2] <= intDest[2] + drop) {
return dest;
} else {
int32_t denom = std::max(intSource[0], std::max(intSource[1], intSource[2]));
dest[0] = (uint8_t)std::max<int32_t>(intSource[0] - drop * intSource[0] / denom, intDest[0]);
dest[1] = (uint8_t)std::max<int32_t>(intSource[1] - drop * intSource[1] / denom, intDest[1]);
dest[2] = (uint8_t)std::max<int32_t>(intSource[2] - drop * intSource[2] / denom, intDest[2]);
return dest;
}
}
其中汇编成(68行):
v3bSpread(std::array<unsigned char, 3ul> const&, std::array<unsigned char, 3ul>, unsigned int):
pushq %rbx
movzbl %sil, %r11d
movl %esi, %ebx
movzbl (%rdi), %r8d
movzbl %r11b, %eax
shrw $8, %bx
addl %edx, %eax
shrl $16, %esi
movzbl 1(%rdi), %r10d
movl %edx, %r9d
movzbl 2(%rdi), %edi
cmpl %eax, %r8d
ja .L4
movzbl %bl, %eax
addl %edx, %eax
cmpl %eax, %r10d
jbe .L10
.L4:
cmpl %edi, %r10d
movl %edi, %ecx
movl %r8d, %eax
cmovge %r10d, %ecx
cmpl %ecx, %r8d
cmovge %r8d, %ecx
imull %r9d, %eax
xorl %edx, %edx
divl %ecx
subl %eax, %r8d
movl %r10d, %eax
cmpl %r11d, %r8d
cmovge %r8d, %r11d
imull %r9d, %eax
xorl %edx, %edx
movb %r11b, -32(%rsp)
divl %ecx
movzbl %bl, %edx
subl %eax, %r10d
movl %edi, %eax
cmpl %edx, %r10d
cmovl %edx, %r10d
imull %r9d, %eax
xorl %edx, %edx
movb %r10b, -31(%rsp)
divl %ecx
subl %eax, %edi
movzbl %sil, %eax
cmpl %eax, %edi
cmovl %eax, %edi
movb %dil, -30(%rsp)
.L6:
movzbl -31(%rsp), %eax
movzbl -32(%rsp), %edx
movb %al, %dh
movzbl -30(%rsp), %eax
popq %rbx
salq $16, %rax
orq %rdx, %rax
ret
.L10:
movzbl %sil, %eax
addl %edx, %eax
cmpl %eax, %edi
ja .L4
movb %r11b, -32(%rsp)
movb %bl, -31(%rsp)
movb %sil, -30(%rsp)
jmp .L6
最佳答案
是什么让您认为生成的浮点代码是矢量化的?我看到的所有 SSE 指令都是以 -ss 为后缀的,即 Scalar-Single,而不是 Packed-Single。
就向量化此代码的可能性而言,我认为不可能使用 SSEx 向量化整数代码,因为没有 SSE 整数除法指令。
关于c++ - float 学矢量化,但整数数学不,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/11303991/
Based on Deep Learning (2017, MIT) book. 本文基于Deep Learning (2017, MIT),推导过程补全了所涉及的知识及书中推导过程中跳跃和省
因此,我需要一种方法来弄清楚如何获得5个数字,并且当您将它们中的任意两个相加时,将得出一个总和,您只能通过将这两个特定的数字相加而得到。 这是我正在谈论的示例,但有3个数字: 1个 3 5 1 + 3
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
如何将 a 和 b 之间的数字线性映射到 c 和 d 之间。 也就是说,我希望 2 到 6 之间的数字映射到 10 到 20 之间的数字...但我需要广义的情况。 我的脑子快炸了。 最佳答案 如果您的
嘿,我有一个方程式,我需要弄清楚它是基于图表的数学,其中图表上有两个点,需要获取其余值: 我正在构建一个 javascript 页面,它获取图表上的两个点,但需要吐出图表上的任何位置。 它用于根据了解
有谁知道如何用 Doxygen 得到实复场或射影平面的符号,i.o.w 符号,如 IR、IC、IP 等? 例如,我尝试了\f$\field{R}\f$,但无法识别。 非常感谢您的帮助,G. 最佳答案
我正在使用 Segment to Segment 最接近方法,该方法将输出两个长度段之间的最近距离。每个段对应一个球体对象的起点和终点。速度只是从一个点到另一个点。 即使没有真正的碰撞,最近的方法也可
我有一个 arduino 连接到 Stradella 系统钢琴 Accordion 。我在左手和弦的 12 个音符中的每一个上都有光学传感器。当我弹奏和弦时,它会触发三个传感器。如果我想让合成器演奏和
我正在开发一个具有一些简单功能的新包。现在我可以使用已经存在的“math-vectors”库中的函数;特别是“插值”和“反转”。如何在我的新包中使用这些?编写 y:=reverse(...) 显然是不
这个问题已经有答案了: 已关闭10 年前。 Possible Duplicate: Integer division in JavaScript 希望这是一个简单的问题,基本上我需要这样做: 分隔线
我有一张表格,上面有学校类(class)。此表单上可以有任意数量的类,每个类有 2 个字段。书本费和学费。 我有一个名为总计的第三个字段,当他们在其他字段中输入成本时,我想更新该字段。 这就是我的设置
今天早些时候我问了一个类似的问题,结果发现我只是数学很烂,因为我也无法解决这个问题。 我通过宽度/高度计算屏幕比例。我需要一个函数来将结果数字转换为新的比例。 例如 function convertN
我有一个起始数字,因此必须仅在开始循环时将该数字乘以一个因子,然后将结果乘以另一个因子的 X 倍,然后必须将循环乘以 Y 次,最后我需要总金额...我认为最好查看数字来了解我需要什么 例如,如果我从数
现在我用 JAVA 遇到了一些问题,但不记得如何获取坐标系之间的长度。 例如。A 点 (3,7)B点(7,59) 我想知道如何计算a点和b点之间的距离。非常感谢您的回答。 :-) 最佳答案 A = (
我有两种类型的文本输入,积极的和可疑的。在将输入到这两种类型的输入中的所有数字相加后,我需要显示多组这些输入的总数。例如:2 个阳性 + 2 个可疑 = 总计:4 然后,我需要从总数中找出积极与可疑的
我正在尝试将输入金额乘以 3.5%,任何人都可以给我任何想法如何做到这一点吗? $("#invest_amount").keyup(function() { $('#fee').va
有谁知道返回a的最大数的Math方法 给定的位数。 例如,使用1位数字的最大数字是9,2是99,3是999,4是9999......等等。 使用字符串很容易实现,但这并不完全 我在找什么。 pri
我是 Knockout 的新手,但仍对它一头雾水,我想知道如何使用两个 KO 变量进行简单的数学运算(加法和乘法)。 此刻我有: self.popInc1 = ko.observable('0.3')
我在谷歌地图应用程序中有以下内容,并希望显示转换为英尺的海拔高度,但如何向上/向下舍入到最接近的数字? (消除小数点后的数字)我尝试了 number.toFixed(x) 方法,但似乎什么也没做。 f
我最近开始使用 JavaScript 编写小型 Canvas 游戏,并试图全神贯注于 Vector 2d 数学。我了解 Vectors 的基础知识(比如它们代表 2d 空间中具有方向的点,您可以对它们
我是一名优秀的程序员,十分优秀!