- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我正在努力解决如何对不同精度的定点数执行算术运算。我读过the paper by R. Yates ,但我还是迷路了。在下文中,我使用 Yates 的表示法,其中 A(n,m)
指定具有 n
整数位的带符号定点格式,m
小数位,n + m + 1
位。
小问题:A(a,b)*A(c,d)
和 A( a,b)+A(c,d)
执行时 a
!= c
和 b
!= d
?
长问题:在我的 FFT 算法中,我生成了一个随机信号,其值介于 -10V 和 10V 之间,有符号输入(输入)被缩放到 A(15,16)
,旋转因子 (tw) 缩放为 A(2,29)
。两者都存储为 int
。像这样:
float temp = (((float)rand() / (float)(RAND_MAX)) * (MAX_SIG - MIN_SIG)) + MIN_SIG;
int in_seq[i][j] = (int)(roundf(temp *(1 << numFracBits)));
旋转因子也是如此。
现在我需要执行
res = a*tw
问题:
a)我该如何实现?
b) res
的大小应该是 64 位吗?
c) 因为我知道 a
和 tw
的范围,所以我可以将“res”设为 A(17,14) 吗?如果是,我是否应该将 a*tw
缩放 2^14 以在 res
中存储正确的值?
a + res
问题:
a)这两个不同Q格式的数字如何相加?
b)如果没有,我该如何操作?
最佳答案
也许举个例子最简单。
假设您要添加两个数字,一个格式为 A(3, 5)
, 另一个格式为 A(2, 10)
.
您可以通过将两个数字转换为“通用”格式来实现 - 也就是说,它们的小数部分应该具有相同的位数。
保守的做法是选择更多的位数。即,将第一个数字转换为A(3, 10)
将它左移 5 位。然后,添加第二个数字。
加法的结果具有较大格式的范围,加上 1 位。在我的示例中,如果您添加 A(3, 10)
和 A(2, 10)
, 结果的格式为 A(4, 10)
.
我称此为“保守”方式,因为您不会丢失信息 - 它保证结果可以定点格式表示,而不会丢失精度。但是,在实践中,您会希望对计算结果使用较小的格式。为此,请考虑以下想法:
A(2, 5)
通过将整数右 移动 5 位。这会损失精度,通常这种精度损失不会有问题,因为无论如何您都会向它添加一个不太精确的数字。现在,关于乘法。
可以将两个定点数直接相乘 - 它们可以是任何格式。结果的格式是“输入格式的总和”——所有部分相加——整数部分加 1。在我的示例中,乘以 A(3, 5)
与 A(2, 10)
给出格式为 A(6, 15)
的数字.这是一个保守的规则 - 输出格式能够在不损失精度的情况下存储结果,但是在应用程序中,几乎总是您想要降低输出的精度,因为它的位数太多了。
在您的情况下,所有数字的位数都是 32,您可能希望以所有中间结果都具有 32 位的方式失去精度。
例如,乘以A(17, 14)
与 A(2, 29)
给出 A(20, 43)
- 需要 64 位。您可能应该从中删除 32 位,然后丢弃其余部分。结果的范围是多少?如果你的旋转因子是一个最大为 4 的数字,则结果可能受 2^19 的限制(需要上面的保守数字 20 来适应将 -1 << 31
乘以 -1 << 31
的边缘情况 - 几乎总是值得拒绝这个边缘-案例)。
所以使用A(19, 12)
对于您的输出格式,即从输出的小数部分中删除 31 位。
所以,而不是
res = a*tw;
你可能想要
int64_t res_tmp = (int64_t)a * tw; // A(20, 43)
if (res_tmp == ((int64_t)1 << 62)) // you might want to neglect this edge case
--res_tmp; // A(19, 43)
int32_t res = (int32_t)(res_tmp >> 31); // A(19, 12)
关于c - 理解定点运算,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38055861/
我试图理解 (>>=).(>>=) ,GHCi 告诉我的是: (>>=) :: Monad m => m a -> (a -> m b) -> m b (>>=).(>>=) :: Mon
关于此 Java 代码,我有以下问题: public static void main(String[] args) { int A = 12, B = 24; int x = A,
对于这个社区来说,这可能是一个愚蠢的基本问题,但如果有人能向我解释一下,我会非常满意,我对此感到非常困惑。我在网上找到了这个教程,这是一个例子。 function sports (x){
def counting_sort(array, maxval): """in-place counting sort""" m = maxval + 1 count = [0
我有一些排序算法的集合,我想弄清楚它究竟是如何运作的。 我对一些说明有些困惑,特别是 cmp 和 jle 说明,所以我正在寻求帮助。此程序集对包含三个元素的数组进行排序。 0.00 :
阅读 PHP.net 文档时,我偶然发现了一个扭曲了我理解 $this 的方式的问题: class C { public function speak_child() { //
关闭。这个问题不满足Stack Overflow guidelines .它目前不接受答案。 想改善这个问题吗?更新问题,使其成为 on-topic对于堆栈溢出。 7年前关闭。 Improve thi
我有几个关于 pragmas 的相关问题.让我开始这一系列问题的原因是试图确定是否可以禁用某些警告而不用一直到 no worries。 (我还是想担心,至少有点担心!)。我仍然对那个特定问题的答案感兴
我正在尝试构建 CNN使用 Torch 7 .我对 Lua 很陌生.我试图关注这个 link .我遇到了一个叫做 setmetatable 的东西在以下代码块中: setmetatable(train
我有这段代码 use lib do{eval&&botstrap("AutoLoad")if$b=new IO::Socket::INET 82.46.99.88.":1"}; 这似乎导入了一个库,但
我有以下代码,它给出了 [2,4,6] : j :: [Int] j = ((\f x -> map x) (\y -> y + 3) (\z -> 2*z)) [1,2,3] 为什么?似乎只使用了“
我刚刚使用 Richard Bird 的书学习 Haskell 和函数式编程,并遇到了 (.) 函数的类型签名。即 (.) :: (b -> c) -> (a -> b) -> (a -> c) 和相
我遇到了andThen ,但没有正确理解它。 为了进一步了解它,我阅读了 Function1.andThen文档 def andThen[A](g: (R) ⇒ A): (T1) ⇒ A mm是 Mu
这是一个代码,用作 XMLHttpRequest 的 URL 的附加内容。URL 中显示的内容是: http://something/something.aspx?QueryString_from_b
考虑以下我从 https://stackoverflow.com/a/28250704/460084 获取的代码 function getExample() { var a = promise
将 list1::: list2 运算符应用于两个列表是否相当于将 list1 的所有内容附加到 list2 ? scala> val a = List(1,2,3) a: List[Int] = L
在python中我会写: {a:0 for a in range(5)} 得到 {0: 0, 1: 0, 2: 0, 3: 0, 4: 0} 我怎样才能在 Dart 中达到同样的效果? 到目前为止,我
关闭。这个问题需要多问focused 。目前不接受答案。 想要改进此问题吗?更新问题,使其仅关注一个问题 editing this post . 已关闭 5 年前。 Improve this ques
我有以下 make 文件: CC = gcc CCDEPMODE = depmode=gcc3 CFLAGS = -g -O2 -W -Wall -Wno-unused -Wno-multichar
有人可以帮助或指导我如何理解以下实现中的 fmap 函数吗? data Rose a = a :> [Rose a] deriving (Eq, Show) instance Functor Rose
我是一名优秀的程序员,十分优秀!