- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在尝试使用 PTX 实现自然对数。 PTX 本身仅提供 lg2.approx.f32
实现以 2 为底的对数。因此,应用简单的数学运算,只需将以 2 为底的对数与以 2 为底的对数相乘即可得到自然对数欧拉数 e:
log_e(a) = log_2(a)/lg_2(e)
1/lg_2(e)
的第一个近似值是 0.693147
。所以,我只想乘以这个数字。
我让 nvcc
将 log
函数(来自 CUDA C)编译成 PTX(请在下面找到输出)。我可以看到最后乘以数字常数。但是还有更多的事情在发生。这重要吗?有人可以解释为什么会有这么多开销吗?
.entry _Z6kernelPfS_ (
.param .u64 __cudaparm__Z6kernelPfS__out,
.param .u64 __cudaparm__Z6kernelPfS__in)
{
.reg .u32 %r<13>;
.reg .u64 %rd<4>;
.reg .f32 %f<48>;
.reg .pred %p<4>;
.loc 14 3 0
$LDWbegin__Z6kernelPfS_:
.loc 14 5 0
ld.param.u64 %rd1, [__cudaparm__Z6kernelPfS__in];
ld.global.f32 %f1, [%rd1+0];
.loc 16 9365 0
mov.f32 %f2, 0f00000000; // 0
set.gt.u32.f32 %r1, %f1, %f2;
neg.s32 %r2, %r1;
mov.f32 %f3, 0f7f800000; // ((1.0F)/(0.0F))
set.lt.u32.f32 %r3, %f1, %f3;
neg.s32 %r4, %r3;
and.b32 %r5, %r2, %r4;
mov.u32 %r6, 0;
setp.eq.s32 %p1, %r5, %r6;
@%p1 bra $Lt_0_2306;
.loc 16 8512 0
mov.b32 %r7, %f1;
and.b32 %r8, %r7, -2139095041;
or.b32 %r9, %r8, 1065353216;
mov.b32 %f4, %r9;
mov.f32 %f5, %f4;
.loc 16 8513 0
shr.u32 %r10, %r7, 23;
sub.u32 %r11, %r10, 127;
mov.f32 %f6, 0f3fb504f3; // 1.41421
setp.gt.f32 %p2, %f4, %f6;
@!%p2 bra $Lt_0_2562;
.loc 16 8515 0
mov.f32 %f7, 0f3f000000; // 0.5
mul.f32 %f5, %f4, %f7;
.loc 16 8516 0
add.s32 %r11, %r11, 1;
$Lt_0_2562:
.loc 16 8429 0
mov.f32 %f8, 0fbf800000; // -1
add.f32 %f9, %f5, %f8;
mov.f32 %f10, 0f3f800000; // 1
add.f32 %f11, %f5, %f10;
neg.f32 %f12, %f9;
div.approx.f32 %f13, %f9, %f11;
mul.rn.f32 %f14, %f12, %f13;
add.rn.f32 %f15, %f9, %f14;
mul.f32 %f16, %f15, %f15;
mov.f32 %f17, 0f3b2063c3; // 0.00244735
mov.f32 %f18, %f17;
mov.f32 %f19, %f16;
mov.f32 %f20, 0f3c4c4be0; // 0.0124693
mov.f32 %f21, %f20;
mad.f32 %f22, %f18, %f19, %f21;
mov.f32 %f23, %f22;
mov.f32 %f24, %f23;
mov.f32 %f25, %f16;
mov.f32 %f26, 0f3daaab50; // 0.0833346
mov.f32 %f27, %f26;
mad.f32 %f28, %f24, %f25, %f27;
mov.f32 %f29, %f28;
mul.f32 %f30, %f16, %f29;
mov.f32 %f31, %f30;
mov.f32 %f32, %f15;
mov.f32 %f33, %f14;
mad.f32 %f34, %f31, %f32, %f33;
mov.f32 %f35, %f34;
cvt.rn.f32.s32 %f36, %r11;
mov.f32 %f37, %f36;
mov.f32 %f38, 0f3f317218; // 0.693147
mov.f32 %f39, %f38;
add.f32 %f40, %f9, %f35;
mov.f32 %f41, %f40;
mad.f32 %f42, %f37, %f39, %f41;
mov.f32 %f43, %f42;
.loc 16 8523 0
mov.f32 %f44, %f43;
bra.uni $Lt_0_2050;
$Lt_0_2306:
.loc 16 8526 0
lg2.approx.f32 %f45, %f1;
mov.f32 %f46, 0f3f317218; // 0.693147
mul.f32 %f44, %f45, %f46;
$Lt_0_2050:
.loc 14 5 0
ld.param.u64 %rd2, [__cudaparm__Z6kernelPfS__out];
st.global.f32 [%rd2+0], %f44;
.loc 14 6 0
exit;
$LDWend__Z6kernelPfS_:
} // _Z6kernelPfS_
* 编辑 *
只是为了完整。这里是我编译成上述PTX的CUDA C内核:
__global__ void kernel(float *out, float *in)
{
*out = log( *in );
}
最佳答案
该函数似乎通过将指数部分设置为 1(有效地缩放到范围 1<x<2
)来计算 float 的 log2,然后计算 3 次多项式近似值。 编辑:似乎是理性的Pade approximation ,因为 log(1+x) 的泰勒级数收敛很差。从而计算倒数。
可能最多可以减少一些指令。 (代码是乘以 0.5 而不是从指数中减去以及诸如此类的琐碎事情。例如测试参数 x<=0。)
关于c - 只有以 2 为底的对数时的自然对数实现,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/13420831/
我想在 python 中找出一个整数的 log10,但我得到了一个错误,比如数学域错误 我的代码是这样的w=math.log10(q*q1)/math.log10(2) 其中 q1,q2 是整数 是的
舍入小数 在 NumPy 中,主要有五种方法来舍入小数: 截断 去除小数部分,并返回最接近零的浮点数。使用 trunc() 和 fix() 函数。 示例: import numpy as n
我有一个数值范围为 0 到 100 的 slider 。 我想将它们映射到 100 到 10,000,000 的范围内。 我在网上看到过一些函数,但它们都是用 C++ 编写的。我需要它在 Javasc
我想请用户输入一个整数(N),然后显示他/她输入的整数的 10 对数。我已经成功计算了 10 对数,但不知道如何像下面这样显示它: Write in an Integer: 455666 455666
我将 x 轴设置为对数刻度。最大值为10000,最小值为1。 GraphPane mypane = zedgraphcontrol.GraphPane; mypane.XAxis.Type = Axi
我正在尝试编写一个快速算法来计算 log gamma function 。目前我的实现看起来很幼稚,只是迭代了 1000 万次来计算 gamma 函数的对数(我还使用 numba 来优化代码)。 im
这个问题在这里已经有了答案: How to show minor tick labels on log-scale with Matplotlib (2 个答案) 关闭 7 年前。 将行 plt.y
抱歉标题不好 ;) 我正在尝试重新创建我在其他一些工作中遇到的 matlab 图,但我不太了解他们使用的比例。 y轴增量如下(从上往下[+ve y]): 0.9999,0.999,0.99,0.9,0
由于 1000 的以 10 为底的对数是 3,您可能期望 Math::log(1000, 10) 返回 3。相反,它返回 2.9999999999999996。 这是因为 Ruby 中的 float
我对对数 X 轴有疑问。阈值大于 0,x 的最小值为 1,并且所有 X 值都大于 0。并且仍然给我相同的错误 Can't plot zero or subzero values on a logari
我需要在我的应用程序中实现折线图,我想使用 MPAndroidChart。问题是 y 轴上的值将介于 1 和 1x10^-12 之间。这就是为什么我需要在该轴上的对数 View 。 有没有办法用那个库
我正在尝试按照 Logarithmic slider 中的示例进行操作. 这是我使用的代码: Timeline._MIN_PER_MINUTE = 1; Timeline._MIN_PER_HOUR
关闭。此题需要details or clarity 。目前不接受答案。 想要改进这个问题吗?通过 editing this post 添加详细信息并澄清问题. 已关闭 9 年前。 Improve th
我尝试为对数 y 轴绘制条形图。不幸的是,如果我将 y 轴设置为对数,则不再有条形图。我该怎么做才能实现这一目标?是否可以在 bar-function 中设置引用点(默认似乎为零)? 我的代码是: i
所以我一直在努力掌握 Big Oh 的计算方法。我觉得我已经掌握了基础知识,但对看似非常简单的计算感到困惑。所以如果下面的计算有很大的 O(n log n)(我真的希望我至少做对了)改变循环的顺序对复
我知道二维绘图的 semilogx 和 semilogy。 SURF 和 MESH 有什么等价物吗? 最佳答案 如上述链接所述,要将所有三个轴设置为对数刻度,请使用 set(gca, 'XScale'
这看起来很简单,但我在用 Ruby 计算 log (Base 5) 时遇到了问题。 显然标准的 base-10 日志工作正常: >> value = Math::log(234504) => 12.3
这段代码是用 C 语言根据 pollard 的对数 rho 算法(来自 wiki)编写的。在此代码中,如果我输入 alpha=2、beta=5、N=1019,则必须返回 a=681、b=378、A=3
有了this question之后通过指向 an external site 的链接回答,我意识到我解决了一个问题,只是为了得到另一个问题:在对数刻度上,MESH 和 SURF 函数的 C=Z 参数不
我正在尝试解决 the SPOJ problem PGCD , 它询问最大公约数表中出现了多少个素数。 我想到的第一个想法是先通过筛分生成素数。 然后,对于每个素数 p,查看有多少对(a,b),其中
我是一名优秀的程序员,十分优秀!