math - 快速反范数函数-6ren

math - 快速反范数函数

转载作者：行者123 更新时间：2023-12-03 17:05:14

28

4

我有一个程序几乎把所有的时间都花在了计算循环上，比如

for(int j = 0; j < BIGNUMBER; j++)
    for(int i = 0; i < SMALLNUMBER; i++)
        result += var[i] / sqrt((A[i].x-B[j].x)*(A[i].x-B[j].x)+(A[i].y-B[j].y)*(A[i].y-B[j].y)+(A[i].z-B[j].z)*(A[i].z-B[j].z));

其中 1.0/sqrt(...) 计算两个向量之差范数的倒数 A[i] = {A[i].x, A[ i].y, A[i].z} 和 B[j] = {B[j].x, B[j].y, B[j].z} 这也是循环中成本最高的部分。

有没有办法优化循环，即使有一些精度损失？

更新:

这里是非向量化循环步骤的汇编代码，每条指令的延迟都比较差。您清楚地看到平方根倒数是瓶颈:

movsd   A(%rip), %xmm0      1
movsd   A+8(%rip), %xmm2    1
subsd   B(%rip), %xmm0      3
subsd   B+8(%rip), %xmm2    3
movsd   A+16(%rip), %xmm1   1
mulsd   %xmm0, %xmm0        5
subsd   B+16(%rip), %xmm1   3
mulsd   %xmm2, %xmm2        5
mulsd   %xmm1, %xmm1        5
addsd   %xmm2, %xmm0        3
addsd   %xmm1, %xmm0        3
movsd   .LC0(%rip), %xmm1   1
unpcklpd    %xmm0, %xmm0    1
cvtpd2ps    %xmm0, %xmm0    4
unpcklps    %xmm0, %xmm0    3
cvtps2pd    %xmm0, %xmm0    2
sqrtsd  %xmm0, %xmm0        58
divsd   %xmm0, %xmm1        32
mulsd   var(%rip), %xmm1    5
addsd   result(%rip), %xmm1 3
cvttsd2si   %xmm1, %eax     3
movsd   %xmm1, result(%rip) 1

(顺便说一句，我不明白为什么要执行 unpcklpd cvtpd2ps unpcklps cvtps2pd。)

最佳答案

如果您可以将矢量排列成 AoSoA 形式 (xxyyzzxxyyzzxxyyzz...)，则可以使用 SSE 或 AVX (xxxxyyyyzzzz...) 非常有效地完成此操作。在下面的代码中，我假设 SSE2 具有 vec_size=2，但很容易将其更改为 AVX。但是您的代码可能受内存限制而不是计算限制，因此这仅对适合 L1 缓存的小循环有用。使用单个 float 也会更快，因为它的触发器数量是两倍，而 sqrt 是少数几个实际上比 float 慢的函数之一。

resultv = _mm_setzero_pd(0);
for(int j = 0; j < BIGNUMBER; j+=vec_size) {
    bx = _mm_load_pd(&B[3*j+0*vec_size]);
    by = _mm_load_pd(&B[3*j+1*vec_size]);
    bz = _mm_load_pd(&B[3*j+2*vec_size]);
    for(int i = 0; i < SMALLNUMBER; i+=vec_size) {
        ax = _mm_load_pd(&A[3*i+0*vec_size]);
        ay = _mm_load_pd(&A[3*i+1*vec_size]);
        az = _mm_load_pd(&A[3*i+2*vec_size]);
        dx = _mm_sub_pd(ax,bx);
        dy = _mm_sub_pd(ay,by);
        dz = _mm_sub_pd(az,bz);
        mag2 = _mm_add_pd(_mm_add_pd(_mm_mul_pd(dx,dx),_mm_mul_pd(dy,dy)), _mm_mul_pd(dz,dz));
        varv = _mm_load_pd(&var[i]);        
        resultv = _mm_add_pd(_mm_div_pd(varv, _mm_sqrt_pd(mag2)), resultv);
        //resultv = _mm_add_pd(_mm_mul_pd(varv, _mm_rsqrt_pd(mag2)), resultv);
    }
}
result = _mm_cvtsd_f64(_mm_hadd_pd(resultv,resultv));

关于math - 快速反范数函数，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/23492774/

28

4

0

文章推荐： matlab - 如何拟合余弦函数？

文章推荐： java - 为什么 foreach lambda 比其他 for 循环慢这么多？

文章推荐： r - 在YAML中使用R代码或Windows用户变量("%userprofile%")？

Java Math.sin Math.cos Math.tan 以弧度给出答案
这个问题在这里已经有了答案: Converting result of Math.sin(x) into a result for degrees in java (4 个答案) 关闭 5 年前。
math - java.lang.Math 与 kotlin.math 兼容吗？
我在学习 Kotlin 并在数学课上遇到了这个问题: java.lang.Math 和 kotlin.math 不兼容。这对我来说有点尴尬和困惑，因为 Kotlin 声称它与 Java 100% 兼容
python - 如何避免 math.sin(math.pi*2*VERY LARGE NUMBER) 的误差范围比 math.sin(math.pi*2) 大得多？
我在其他问题中读到，例如由于浮点表示，sin(2π) 不为零，但非常接近。这个非常小的错误在我的代码中不是问题，因为例如我可以四舍五入 5 位小数。但是当2π乘以一个非常大的数时，误差就会放大很多。
c# - Math.Sin、Math.Cos 和 Math.Tan 精度以及正确显示它们的方法
我正在用 C# 编写一个计算器。 textBoxResult 是我显示数字的文本框 recount 是一个以度为单位的角度并以弧度为单位返回的函数我从 texBoxInput 获取角度 public
math - 计算机图形 : Math to Code
首先，让我们从我的数学背景开始。我已经学习了微积分 I - IV 和微分方程。我参加了第一学期的计算机图形类(class)，在该类(class)中我们实现了几乎我们自己的图形管道，包括使用 Phong
math - Cocos2D/Math - 干净的角度转换
早上好! 我只是想磨练我的数学能力，我特别有一些关于 Cocos2D 的问题。由于 Cocos2D 想要“简化”事物，所有 Sprite 都有一个旋转属性，范围从 0-360(359？)CW。这迫使你
math - 英特尔MKL与AMD Math Core库
是否有人对Intel Math Kernel Library和AMD Math Core Library都有编程经验？我正在建立一台用于高性能统计计算的个人计算机，并对正在购买的组件进行辩论。 AMD
math - math.atan2 的逆？
函数的反函数是什么 math.atan2 我在 Lua 中使用它，我可以通过 math.tan 获得 math.atan 的逆。但我在这里迷路了。编辑好的，让我向您提供更多详细信息。我需要计算
math - 等距投影 : What's wrong with my math?
我有一道等轴测投影的数学题。我读了一篇文章:Axonometric projections - a technical overview .对于等距投影部分，它给出了将 x 部分的 3D 点转换为 2
math - MySQL Math - 是否可以计算查询中的相关性？
在 MySQL (5.1) 数据库表中，有数据表示: 用户执行任务需要多长时间用户在任务中处理了多少项目。 MySQL 是否支持关联数据，还是我需要使用 PHP/C# 来计算？我在哪里可以找到计算
javascript - 为什么 Math.pow 比缓存的 Math.pow 更快 (var pow = Math.pow)
关闭。这个问题是opinion-based 。目前不接受答案。想要改进这个问题吗？更新问题，以便 editing this post 可以用事实和引文来回答它。 . 已关闭 9 年前。 Improv
c# - 一种实现幂函数的有效方法 : Why Math. Exp(x * Math.Log(n)) 比 Math.Pow() 更快？
我正在尝试使用这两种方法在 C# 中解决这个问题: public double NormalPowerMethod(double x, double toPower) { return Mat
javascript - Math.random()*50 + Math.random()*20 的分布与 Math.random()*70 相比如何？
如何分配: var randomNumber = Math.random()*50 + Math.random()*20; 比较: var randomNumber = Math.random()*7
java - (int) Math.sqrt(n) 比 (int) Math.floor(Math.sqrt(n)) 慢很多
我正在查看我的代码，希望提高它的性能，然后我看到了这个: int sqrt = (int) Math.floor(Math.sqrt(n)); 哦，好的，我真的不需要调用 Math.floor，因为转
math - 为什么在 Math.h 中调用函数时会出现链接错误？
尝试调用 math.h 中的函数时, 我收到如下链接错误 undefined reference to sqrt 但我正在做一个 #include 我正在使用 gcc 并编译如下: gcc -Wall
math - smarty 将 {math} 方程中的值赋给一个变量
祝大家有个愉快的一天，我有话要问你，为了更好地理解这里是我的代码: {math equation=((($order_total-$commission)+$discount+$delivery_ch
math - 使用clojure.math.numeric-tower或任何库
我尝试学习一些Clojure，因为该语言看起来不错。但是似乎没有关于如何安装/使用库的信息，例如clojure.math.numeric-tower。现在，我通过在Linux shell中键入以下
javascript - 为什么 Math.sign([]) = 0、Math.sign([20]) = 1 和 Math.sign([20, 30, 40]) = NaN？
As Math.sign() 接受数字参数或数字作为字符串，如 https://developer.mozilla.org/en-US/docs/Web/JavaScript/Reference/Gl
scala - 将scala.math.BigDecimal转换为java.math.BigDecimal？
如何将scala.math.BigDecimal转换为java.math.BigDecimal？最佳答案无需在字符串之间进行双重转换。 val sb = scala.math.BigDecimal
javascript - 为什么 Math instanceof Math 会抛出错误？
为什么下面的 JavaScript 会这样 Math instanceof Math 抛出错误 TypeError: Expecting a function in instanceof check,

首页

博学

6Ren·AI

商城

math - 快速反范数函数

更新: