- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我有一个程序几乎把所有的时间都花在了计算循环上,比如
for(int j = 0; j < BIGNUMBER; j++)
for(int i = 0; i < SMALLNUMBER; i++)
result += var[i] / sqrt((A[i].x-B[j].x)*(A[i].x-B[j].x)+(A[i].y-B[j].y)*(A[i].y-B[j].y)+(A[i].z-B[j].z)*(A[i].z-B[j].z));
其中 1.0/sqrt(...)
计算两个向量之差范数的倒数 A[i] = {A[i].x, A[ i].y, A[i].z}
和 B[j] = {B[j].x, B[j].y, B[j].z}
这也是循环中成本最高的部分。
有没有办法优化循环,即使有一些精度损失?
这里是非向量化循环步骤的汇编代码,每条指令的延迟都比较差。您清楚地看到平方根倒数是瓶颈:
movsd A(%rip), %xmm0 1
movsd A+8(%rip), %xmm2 1
subsd B(%rip), %xmm0 3
subsd B+8(%rip), %xmm2 3
movsd A+16(%rip), %xmm1 1
mulsd %xmm0, %xmm0 5
subsd B+16(%rip), %xmm1 3
mulsd %xmm2, %xmm2 5
mulsd %xmm1, %xmm1 5
addsd %xmm2, %xmm0 3
addsd %xmm1, %xmm0 3
movsd .LC0(%rip), %xmm1 1
unpcklpd %xmm0, %xmm0 1
cvtpd2ps %xmm0, %xmm0 4
unpcklps %xmm0, %xmm0 3
cvtps2pd %xmm0, %xmm0 2
sqrtsd %xmm0, %xmm0 58
divsd %xmm0, %xmm1 32
mulsd var(%rip), %xmm1 5
addsd result(%rip), %xmm1 3
cvttsd2si %xmm1, %eax 3
movsd %xmm1, result(%rip) 1
(顺便说一句,我不明白为什么要执行 unpcklpd cvtpd2ps unpcklps cvtps2pd
。)
最佳答案
如果您可以将矢量排列成 AoSoA 形式 (xxyyzzxxyyzzxxyyzz...),则可以使用 SSE 或 AVX (xxxxyyyyzzzz...) 非常有效地完成此操作。在下面的代码中,我假设 SSE2 具有 vec_size=2,但很容易将其更改为 AVX。但是您的代码可能受内存限制而不是计算限制,因此这仅对适合 L1 缓存的小循环有用。使用单个 float 也会更快,因为它的触发器数量是两倍,而 sqrt 是少数几个实际上比 float 慢的函数之一。
resultv = _mm_setzero_pd(0);
for(int j = 0; j < BIGNUMBER; j+=vec_size) {
bx = _mm_load_pd(&B[3*j+0*vec_size]);
by = _mm_load_pd(&B[3*j+1*vec_size]);
bz = _mm_load_pd(&B[3*j+2*vec_size]);
for(int i = 0; i < SMALLNUMBER; i+=vec_size) {
ax = _mm_load_pd(&A[3*i+0*vec_size]);
ay = _mm_load_pd(&A[3*i+1*vec_size]);
az = _mm_load_pd(&A[3*i+2*vec_size]);
dx = _mm_sub_pd(ax,bx);
dy = _mm_sub_pd(ay,by);
dz = _mm_sub_pd(az,bz);
mag2 = _mm_add_pd(_mm_add_pd(_mm_mul_pd(dx,dx),_mm_mul_pd(dy,dy)), _mm_mul_pd(dz,dz));
varv = _mm_load_pd(&var[i]);
resultv = _mm_add_pd(_mm_div_pd(varv, _mm_sqrt_pd(mag2)), resultv);
//resultv = _mm_add_pd(_mm_mul_pd(varv, _mm_rsqrt_pd(mag2)), resultv);
}
}
result = _mm_cvtsd_f64(_mm_hadd_pd(resultv,resultv));
关于math - 快速反范数函数,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/23492774/
这个问题在这里已经有了答案: Converting result of Math.sin(x) into a result for degrees in java (4 个答案) 关闭 5 年前。
我在学习 Kotlin 并在数学课上遇到了这个问题: java.lang.Math 和 kotlin.math 不兼容。这对我来说有点尴尬和困惑,因为 Kotlin 声称它与 Java 100% 兼容
我在其他问题中读到,例如由于浮点表示,sin(2π) 不为零,但非常接近。这个非常小的错误在我的代码中不是问题,因为例如我可以四舍五入 5 位小数。 但是当2π乘以一个非常大的数时,误差就会放大很多。
我正在用 C# 编写一个计算器。 textBoxResult 是我显示数字的文本框 recount 是一个以度为单位的角度并以弧度为单位返回的函数 我从 texBoxInput 获取角度 public
首先,让我们从我的数学背景开始。我已经学习了微积分 I - IV 和微分方程。我参加了第一学期的计算机图形类(class),在该类(class)中我们实现了几乎我们自己的图形管道,包括使用 Phong
早上好! 我只是想磨练我的数学能力,我特别有一些关于 Cocos2D 的问题。由于 Cocos2D 想要“简化”事物,所有 Sprite 都有一个旋转属性,范围从 0-360(359?)CW。这迫使你
是否有人对Intel Math Kernel Library和AMD Math Core Library都有编程经验?我正在建立一台用于高性能统计计算的个人计算机,并对正在购买的组件进行辩论。 AMD
函数的反函数是什么 math.atan2 我在 Lua 中使用它,我可以通过 math.tan 获得 math.atan 的逆。 但我在这里迷路了。 编辑 好的,让我向您提供更多详细信息。 我需要计算
我有一道等轴测投影的数学题。我读了一篇文章:Axonometric projections - a technical overview .对于等距投影部分,它给出了将 x 部分的 3D 点转换为 2
在 MySQL (5.1) 数据库表中,有数据表示: 用户执行任务需要多长时间 用户在任务中处理了多少项目。 MySQL 是否支持关联数据,还是我需要使用 PHP/C# 来计算? 我在哪里可以找到计算
关闭。这个问题是opinion-based 。目前不接受答案。 想要改进这个问题吗?更新问题,以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
我正在尝试使用这两种方法在 C# 中解决这个问题: public double NormalPowerMethod(double x, double toPower) { return Mat
如何分配: var randomNumber = Math.random()*50 + Math.random()*20; 比较: var randomNumber = Math.random()*7
我正在查看我的代码,希望提高它的性能,然后我看到了这个: int sqrt = (int) Math.floor(Math.sqrt(n)); 哦,好的,我真的不需要调用 Math.floor,因为转
尝试调用 math.h 中的函数时, 我收到如下链接错误 undefined reference to sqrt 但我正在做一个 #include 我正在使用 gcc 并编译如下: gcc -Wall
祝大家有个愉快的一天,我有话要问你,为了更好地理解这里是我的代码: {math equation=((($order_total-$commission)+$discount+$delivery_ch
我尝试学习一些Clojure,因为该语言看起来不错。 但是似乎没有关于如何安装/使用库的信息,例如clojure.math.numeric-tower。 现在,我通过在Linux shell中键入以下
As Math.sign() 接受数字参数或数字作为字符串,如 https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Gl
如何将scala.math.BigDecimal转换为java.math.BigDecimal? 最佳答案 无需在字符串之间进行双重转换。 val sb = scala.math.BigDecimal
为什么下面的 JavaScript 会这样 Math instanceof Math 抛出错误 TypeError: Expecting a function in instanceof check,
我是一名优秀的程序员,十分优秀!