- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我正在尝试在尾数中以 11 位精度实现快速 atan2(float)。
atan2 实现将用于图像处理。
所以最好用 SIMD 指令来实现(目标是 x86(带 SSE2)和 ARM(带 vpfv4 NEON))。
现在,我使用切比雪夫多项式近似( https://jp.mathworks.com/help/fixedpoint/examples/calculate-fixed-point-arctangent.html )。
我愿意手动实现矢量化代码。
我将使用 SSE2(或更高版本)和 NEON 包装器库。
我计划或尝试了这些实现选项
最佳答案
您要检查的第一件事是您的编译器在应用于 atan2f (y,x)
数组时是否能够对 float
进行矢量化。这通常至少需要高优化级别,例如 -O3
,并可能指定一种宽松的“快速数学”模式,其中 errno
处理、非正规数和特殊输入(例如无穷大和 NaN)在很大程度上被忽略。使用这种方法,准确性可能远远超过所需,但在性能方面可能很难击败经过仔细调整的库实现。
接下来要尝试的是编写一个具有足够精度的简单标量实现,并让编译器对其进行矢量化。通常,这意味着避免任何非常简单的分支,这些分支可以通过 if-conversion 转换为无分支代码。此类代码的一个示例是如下所示的 fast_atan2f()
。使用作为 icl /O3 /fp:precise /Qvec_report=2 my_atan2f.c
调用的英特尔编译器,这已成功矢量化: my_atan2f.c(67): (col. 9) remark: LOOP WAS VECTORIZED.
通过反汇编对生成的代码进行双重检查表明 fast_atan2f()
已使用 *ps
风格的 SSE 指令进行内联和矢量化。
如果一切都失败了,您可以手动将 fast_atan2()
的代码转换为特定于平台的 SIMD 内在函数,这应该不难做到。我没有足够的经验来快速完成。
我在这段代码中使用了一个非常简单的算法,它是一个简单的参数约简以在 [0,1] 中生成一个约简参数,然后是一个极小极大多项式近似,最后一步将结果映射回完整的圆。核心近似是使用 Remez 算法生成的,并使用二阶霍纳方案进行评估。如果可用,可以使用融合乘法加法 (FMA)。出于性能考虑,不处理涉及无穷大、NaN 或 0/0
的特殊情况。
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
/* maximum relative error about 3.6e-5 */
float fast_atan2f (float y, float x)
{
float a, r, s, t, c, q, ax, ay, mx, mn;
ax = fabsf (x);
ay = fabsf (y);
mx = fmaxf (ay, ax);
mn = fminf (ay, ax);
a = mn / mx;
/* Minimax polynomial approximation to atan(a) on [0,1] */
s = a * a;
c = s * a;
q = s * s;
r = 0.024840285f * q + 0.18681418f;
t = -0.094097948f * q - 0.33213072f;
r = r * s + t;
r = r * c + a;
/* Map to full circle */
if (ay > ax) r = 1.57079637f - r;
if (x < 0) r = 3.14159274f - r;
if (y < 0) r = -r;
return r;
}
/* Fixes via: Greg Rose, KISS: A Bit Too Simple. http://eprint.iacr.org/2011/007 */
static unsigned int z=362436069,w=521288629,jsr=362436069,jcong=123456789;
#define znew (z=36969*(z&0xffff)+(z>>16))
#define wnew (w=18000*(w&0xffff)+(w>>16))
#define MWC ((znew<<16)+wnew)
#define SHR3 (jsr^=(jsr<<13),jsr^=(jsr>>17),jsr^=(jsr<<5)) /* 2^32-1 */
#define CONG (jcong=69069*jcong+13579) /* 2^32 */
#define KISS ((MWC^CONG)+SHR3)
float rand_float(void)
{
volatile union {
float f;
unsigned int i;
} cvt;
do {
cvt.i = KISS;
} while (isnan(cvt.f) || isinf (cvt.f) || (fabsf (cvt.f) < powf (2.0f, -126)));
return cvt.f;
}
int main (void)
{
const int N = 10000;
const int M = 100000;
float ref, relerr, maxrelerr = 0.0f;
float arga[N], argb[N], res[N];
int i, j;
printf ("testing atan2() with %d test vectors\n", N*M);
for (j = 0; j < M; j++) {
for (i = 0; i < N; i++) {
arga[i] = rand_float();
argb[i] = rand_float();
}
// This loop should be vectorized
for (i = 0; i < N; i++) {
res[i] = fast_atan2f (argb[i], arga[i]);
}
for (i = 0; i < N; i++) {
ref = (float) atan2 ((double)argb[i], (double)arga[i]);
relerr = (res[i] - ref) / ref;
if ((fabsf (relerr) > maxrelerr) &&
(fabsf (ref) >= powf (2.0f, -126))) { // result not denormal
maxrelerr = fabsf (relerr);
}
}
};
printf ("max rel err = % 15.8e\n\n", maxrelerr);
printf ("atan2(1,0) = % 15.8e\n", fast_atan2f(1,0));
printf ("atan2(-1,0) = % 15.8e\n", fast_atan2f(-1,0));
printf ("atan2(0,1) = % 15.8e\n", fast_atan2f(0,1));
printf ("atan2(0,-1) = % 15.8e\n", fast_atan2f(0,-1));
return EXIT_SUCCESS;
}
testing atan2() with 1000000000 test vectors
max rel err = 3.53486939e-005
atan2(1,0) = 1.57079637e+000
atan2(-1,0) = -1.57079637e+000
atan2(0,1) = 0.00000000e+000
atan2(0,-1) = 3.14159274e+000
关于sse - 在 x86(使用 SSE2)和 ARM(使用 vfpv4 NEON)上的尾数为 11 位的 atan2 近似值,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46210708/
我必须做一些需要使用三角函数的计算,尤其是 atan一。代码将在 Atmega328p 上运行,为了效率,我不能使用 float s:我使用的是定点数。因此,我不能使用标准 atan功能。 我有一个函
我一直在谷歌上搜索这个问题的解决方案。我见过多种计算任何 -1 #include double my_atan(double x) { return x - (x*x*x)/3 + (x*
我正在用 JavaScript 编写我的第一个项目。据我了解,Math.atan() 返回一个数字(以弧度表示的 Angular )。但不知何故,它返回了 Nan。 使用console.log(),我
我遇到 Math.atan 返回与输入相同的值的问题。 public double inchToMOA( double in, double range){ double rangeI
这里是一位非常初级的程序员(两周前开始),我目前在使用 Math.atan 时遇到问题。我目前使用 Eclipse IDE,并且一直在尝试找出如何对三角形执行 tan^-1,但目前不起作用。我在控制台
下面的代码演示了 atan 的计算时间可以有很大的不同: #include #include #include #include #include #include double get_
我有以下小程序,它在我的大型项目中重现了一个触发错误: #define _USE_MATH_DEFINES #include #include #define R2D(trig_fn, val)
我在我的代码中得到了这个函数: -(void)printAngle { int width = p2_t.x-cp1_t.x; int height = p2_t.y-cp1_t.y;
我有个小问题我不知道如何在 cobol 中转换我的 ATAN/ASIN/ACOS 函数这是代码: ACCEPT A
我试图在点的 Angular 之间做一些比较,但很快我遇到了一些奇怪的结果。 在这个例子中,我尝试旋转线条,使它们指向中心,但线条的 Angular 似乎超过了它们应该很快的 Angular 。然后,
我正在尝试计算一个实体观看另一个实体时必须观察的角度。 l是第一个实体的位置。 o是另一个实体的位置。 每个实体在 3D 空间中都有一个 3D X、Y 和 Z 坐标。 我目前使用 double ang
这个问题已经有答案了: What is the difference between atan and atan2 in C++? (11 个回答) 已关闭 6 年前。 我有一个问题。 atan 和有
我如何将我的 atan 函数放入 atan2 中?例如 float myAtan2(double a, double b) { float atan2val = //calculate ata
Java Math.atan() 函数是否已知有任何问题?我在我的代码中使用它,由于一些我无法解决的奇怪原因,该函数将在 45 度运动时返回 0,跳转到 45 并保持在 45 直到它达到 63.4 度
我在一些基本的触发方面遇到了一些麻烦。我正在做一些数学作业,我终于厌倦了将直角坐标转换为极坐标,反之亦然,所以我决定编写一个小 Python 程序来帮助我进行转换。但是, Math.atan() 给我
我的公式f=arctan(ImZ/ReZ) 有两种选择: 选项 1 (atan): ImZ=-4.593172163003 ImR=-4.297336384845 >>> z=y/x >>> f1=m
atan 和 atan2 都是反正切函数,返回的都是弧度 对于两点形成的直线,两点分别是 point(x1,y1) 和 point(x2,y2),其斜率对应角度的计算方法可以是:
我有一个 2D 侧视射击游戏,我需要一些新的视角。我目前正在研究瞄准,并且它部分有效: Guzzle 速度已知,重力已知,并且到目标的 x,y 距离也已知。使用 SE 和维基百科上的各种来源,我提出了
我在java编程中使用半正矢公式(使用eclipse)。我的问题是在等式的末尾,我收到一个错误(atan 带下划线),指出“方法 atan(double) 对于 Math 类型未定义”。 我不知道出了
所以我想获得2点之间的度数,但是当我希望它返回180时,它返回0...0、90和270确实有效,但是当它180时它返回0..这是我的代码: Location loc1 = new Location(B
我是一名优秀的程序员,十分优秀!