- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
在各种情况下,例如对于数学函数的参数约简,需要计算 (a - K)/(a + K)
,其中 a
是一个正变量参数,K
是一个常量。在许多情况下,K
是 2 的幂,这是与我的工作相关的用例。我正在寻找比直接除法更准确地计算这个商的有效方法。可以假定对融合乘加 (FMA) 的硬件支持,因为目前所有主要 CPU 和 GPU 架构都提供此操作,并且可通过函数 fma()
在 C/C++ 中使用和 fmaf()
。
为了便于探索,我正在试验 float
算术。由于我还计划将该方法移植到 double
算术,因此不得使用比参数和结果的 native 精度更高的操作。到目前为止我最好的解决方案是:
/* Compute q = (a - K) / (a + K) with improved accuracy. Variant 1 */
m = a - K;
p = a + K;
r = 1.0f / p;
q = m * r;
t = fmaf (q, -2.0f*K, m);
e = fmaf (q, -m, t);
q = fmaf (r, e, q);
对于区间 [K/2, 4.23*K]
中的参数 a
,上面的代码为所有输入计算几乎正确四舍五入的商(最大误差非常接近到 0.5 ulps),前提是 K
是 2 的幂,并且中间结果没有上溢或下溢。对于 K
不是 2 的幂,此代码仍然比基于除法的朴素算法更准确。就性能而言,此代码可以更快比平台上的朴素方法更快,在平台上计算浮点倒数比浮点除法更快。
当 K
= 2n 时,我做了以下观察:当工作区间的上限增加到 8*K
时,16*K
, ... 最大误差逐渐增加,并开始从下方慢慢逼近朴素计算的最大误差。不幸的是,区间的下限似乎并非如此。如果下界下降到0.25*K
,则上述改进方法的最大误差等于朴素方法的最大误差。
有没有一种计算 q = (a - K)/(a + K) 的方法可以实现比朴素方法更小的最大误差(以 ulp 衡量与数学结果相比)和上面的代码序列,在更宽的区间内,特别是对于下限小于 0.5*K
的区间? 效率很重要,但比实际操作多一些在上面的代码中使用可能是可以容忍的。
在下面的一个回答中,有人指出我可以通过将商返回为两个操作数的未计算总和来提高准确性,即作为头尾对 q:qlo
,即类似于众所周知的 double float
和 double double
格式。在我上面的代码中,这意味着将最后一行更改为 qlo = r * e
。
这种方法当然很有用,我已经考虑过将其用于 pow()
中的扩展精度对数。但它并不能从根本上帮助扩大增强计算提供更准确商数的区间。在我正在查看的特定情况下,我想使用 K=2
(对于单精度)或 K=4
(对于 double )来保持主要近似值区间变窄,a
的区间大致为 [0,28]。我面临的实际问题是,对于 < 0.25*K 的参数,改进除法的准确性并不比使用朴素方法好很多。
最佳答案
如果 a 比 K 大,则 (a-K)/(a+K) = 1 - 2K/(a + K) 将给出一个很好的近似值。如果 a 与 K 相比较小,则 2a/(a + K) - 1 将给出一个很好的近似值。如果 K/2 ≤ a ≤ 2K,则 a-K 是精确运算,因此进行除法会得到不错的结果。
关于c - 高效计算 (a - K)/(a + K) 并提高准确性,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35424019/
我使用以下代码来查看用户在特定页面上的停留时间。我为此脚本使用了带有 src 属性的隐藏图像: $timer_seconds = 1; while(!connection_aborted()) {
我在 Keras 中使用自定义损失函数: def get_top_one_probability(vector): return (K.exp(vector) / K.sum(K.exp(vect
当我使用 long 来节省一个月毫秒时,我发现一个问题。但我打印负数。所以我做了一个测试 代码如下: LogUtils.d(TAG, "long max time:"+Long.MAX_VALUE);
关于使用 Lenet5 网络解释某些优化器在 MNIST 上的性能,我有几个问题,以及验证损失/准确性与训练损失/准确性图表究竟告诉我们什么。所以一切都是在 Keras 中使用标准的 LeNet5 网
我有 1000 个 pdf(每个 200 页)。 我需要将每个 pdf 添加到 Azure 搜索索引中的索引(作为小文本 block 和相关元数据,例如每个 pdf 200 个 block ) 已达到
我必须在 mssql 数据库中存储一些间隔。我知道日期时间的准确性约为。 3.3ms(只能结束0、3、7)。但是当我计算日期时间之间的间隔时,我发现结果只能以 0、3 和 6 结尾。所以我总结的间隔越
我想制作一个需要将位置精确到大约 1m 或更小的 Android 应用程序。“Fused Location Manager API”是否足够好,或者 GPS 永远不会如此准确,无论是否与其他传感器融合
我想使用 pySerial 的 serial.tools.list_ports.comports() 列出可用的 COM 端口。 阅读documentation : The function retu
使用 pyomo 和 glpk 求解器,我定义了以下目标规则: def cost_rule(m): return (sum(m.rd[i]*m.pRdImp*m.dt - m.vr[i]*m.
我正在遵循“Lucene in Action”中的示例,第 308-315 页,它描述了 Lucene Spatial。我正在使用 lucene 2.9.4。我用过 http://geocoder.u
我一直在试验各种计时方法的代码。创建延迟的一种方法是使用thread.sleep(millis)运行线程,但可以很好地说明,线程“唤醒”的时间并不完全准确,可能在这个时间之前或之后。然后我遇到一个定义
我在使用 boost::sleep() 函数时遇到奇怪的问题。我有这个基本代码: #include #include #include void thread_func() { time
数字示例 我正在使用标准的 pytesseract img 来发送文本。我尝试过仅使用数字选项,90% 的情况下它是完美的,但上面是一个非常错误的例子!这个例子根本没有产生任何字符 如您所见,现在有字
我想从 python 中的图像中提取文本.为了做到这一点,我选择了 pytesseract .当我尝试从图像中提取文本时,结果并不令人满意。我也经历过this并实现了列出的所有技术。然而,它的表现似乎
在每个时代结束时,我得到例如以下输出: Epoch 1/25 2018-08-06 14:54:12.555511: 2/2 [==============================] - 86
我想为我的移动项目需求之一实现条形码。要存储的数据量非常少(<25 个字母数字)。我想知道对于这个项目实现一维条形码或二维条形码(特别是二维码)是否更明智。如果有人能从 1d 与 2d 的角度对我进行
想象一个二元分类问题。假设我在 pred_test 中存储了 800,000 个预测概率。我将 cutoff 定义为 pred_test 中的任何值,以便大于或等于 cutoff 的值被分配值 1 和
已关闭。此问题需要 debugging details 。目前不接受答案。 编辑问题以包含 desired behavior, a specific problem or error, and the
我正在使用 iBeacon 和 Altbeacon 测试定位系统。我发现我的三角测量结果实际上非常准确,但有时需要 5 秒以上才能看到正确的结果。 例如,假设我目前正站在A点。 Altbeacon +
因此,我有 2 个独立的数据表,它们看起来非常相同,但它们行中的值可能不同。 编辑: 我可以通过创建一个可以用作主键的临时标识列来获得唯一 ID,如果这样做更容易的话。所以将 ID 列视为主键。 表A
我是一名优秀的程序员,十分优秀!