- mongodb - 在 MongoDB mapreduce 中,如何展平值对象?
- javascript - 对象传播与 Object.assign
- html - 输入类型 ="submit"Vs 按钮标签它们可以互换吗?
- sql - 使用 MongoDB 而不是 MS SQL Server 的优缺点
这是我的代码:
int f(double x, double y)
{
return std::isnan(x) || std::isnan(y);
}
如果您使用 C 而不是 C++,只需将 std::
替换为 __builtin_
(不要简单地删除 std::
, 原因如下:Why does GCC implement isnan() more efficiently for C++ <cmath> than C <math.h>? )。
这是程序集:
ucomisd %xmm0, %xmm0 ; set parity flag if x is NAN
setp %dl ; copy parity flag to %edx
ucomisd %xmm1, %xmm1 ; set parity flag if y is NAN
setp %al ; copy parity flag to %eax
orl %edx, %eax ; OR one byte of each result into a full-width register
现在让我们尝试一个替代的公式来做同样的事情:
int f(double x, double y)
{
return std::isunordered(x, y);
}
这是替代方案的程序集:
xorl %eax, %eax
ucomisd %xmm1, %xmm0
setp %al
这太棒了——我们将生成的代码几乎减半!这是因为 ucomisd
设置奇偶校验标志,如果 either 它的操作数是 NAN,所以我们可以一次测试两个值,SIMD 样式。
你可以在野外看到类似原始版本的代码,例如:https://svn.r-project.org/R/trunk/src/nmath/qnorm.c
如果我们能让 GCC 足够聪明,可以在任何地方组合两个 isnan()
调用,那将是非常酷的。我的问题是:我们可以吗,怎么做?我对编译器的工作原理有一些了解,但我不知道在 GCC 的哪个位置可以执行这种优化。基本思想是,只要有一对 isnan()
(或 __builtin_isnan
)调用 OR'd 在一起,它应该发出单个 ucomisd
同时使用两个操作数的指令。
编辑添加了一些由 Basile Starynkevitch 的回答提示的研究:
如果我使用 -fdump-tree-all 进行编译,我会找到两个看起来相关的文件。首先,*.gimple
包含以下内容(以及更多内容):
D.2229 = x unord x;
D.2230 = y unord y;
D.2231 = D.2229 | D.2230;
这里我们可以清楚地看到,GCC 知道它会将 (x, x)
传递给 isunordered()
。如果我们想通过在这个级别进行转换来进行优化,那么规则大致是:“将 a unord a | b unord b
替换为 a unord b
”。这是编译我的第二个 C 代码时得到的结果:
D.2229 = x unord y;
另一个有趣的文件是*.original
:
return <retval> = (int) (x unord x || y unord y);
其实就是-fdump-tree-original
生成的整个非注释文件。对于更好的源代码,它看起来像这样:
return <retval> = x unord y;
显然可以应用相同类型的转换(只是这里是 ||
而不是 |
)。
但不幸的是,如果我们将源代码修改为例如:
if (__builtin_isnan(x))
return true;
if (__builtin_isnan(y))
return true;
return false;
然后我们得到完全不同的 Gimple 和 Original 输出文件,尽管最终的组装和以前一样。所以也许在管道的后期尝试这种转变会更好? *.optimized
文件(以及其他文件)显示带有“if”的版本的代码与原始版本的代码相同,因此很有希望。
最佳答案
这种优化不仅是可能的,它现在在 gcc-6 中可用: https://gcc.gnu.org/viewcvs/gcc?view=revision&revision=222077
关于c++ - GCC优化isnan(x)是否可行|| isnan(y) 变成 isunordered(x, y)?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/26053934/
我刚刚编写了这些代码,但输出不同。第二个代码的输出符合我的预期,但第一个代码的输出不正确。但为什么呢? def fib(n): x = 0 y = 1 print x
#include #include #define CUBE(y)y*(y*y) main() { int j; j = CUBE(-2+4);
这个问题在这里已经有了答案: Multiple assignment and evaluation order in Python (11 个答案) 关闭 1 年前。 我看到下面的代码,但不知道它做
我正在阅读 book , 并讲了 typeclass Eq 的定义 有两个功能== , /=在等式中,它们被实现为: x == y = not (x /= y) x /= y = not (
我最近参加了一个代码力量竞赛。在比赛的编辑部分,我看到了按位运算符之间的一种美妙关系,即 x + y = x & y + x |是的我还不知道证据。我拿了几个数字来看看这个等式是否正确。我很高兴知道这
我使用 CGRectMake(x,x,x,x) 在我的 View 中放置了一个按钮,当然 x 是位置和大小。当我使用 -(BOOL)shouldAutoRotate... 旋转 View 时,我想将按
this.x = (Math.random()*canvasWidth); this.y = (Math.random()*canvasHeight); (1) this.shift = {x: th
我想将此代码运行为“if 'Britain' or 'UK' in string do stuff, but don't do stuff if "Ex UK" 在字符串中": #Case insen
早上好,我是新来的,我带来了一个小问题。我无法针对以下问题开发有效的算法:我需要找到三个正数 x、y 和 z 的组合,以便 x + y、x - y、y + z、y - z、x + z 和 x - z
我现在正在使用 C++ 编写方案的解释器。我有一个关于定义和 lambda 的问题。 (define (add x y) (+ x y)) 扩展为 (define add (lambda (x y)
我正在尝试使用一台主机通过 FTP 将内容上传到另一台主机。 “我不会打开到 172.xxx.xxx.xxx(仅到 54.xxx.xxx.xxx)的连接”甚至不相关,因为我没有连接到那个主持人。这是托
在 Python 中,使用 [] 解包函数调用有什么区别? , 与 ()还是一无所有? def f(): return 0, 1 a, b = f() # 1 [a, b] = f() # 2
给定方程 z = z(x,y) 2 个表面 I和 II : z_I(x, y) = a0 + a1*y + a2*x + a3*y**2 + a4*x**2 + a5*x*y z_II(x, y)
几年前我有这个面试问题,但我还没有找到答案。 x 和 y 应该是什么才能形成无限循环? while (x = y && x != y) { } 我们尝试了 Nan,infinity+/-,null f
我正在尝试使用 Camel FTP Producer 将文件发送到第三方 ftp 服务器(似乎由 Amazon 托管),但遇到了一个问题,写入文件失败,并显示:文件操作失败...主机尝试数据连接 x.
关闭。这个问题需要details or clarity .它目前不接受答案。 想改进这个问题吗? 通过 editing this post 添加细节并澄清问题. 关闭 8 年前。 Improve t
我正在使用 torch.tensor.repeat() x = torch.tensor([[1, 2, 3], [4, 5, 6]]) period = x.size(1) repeats = [1
#include int main() { int x = 9; int y = 2; int z = x - (x / y) * y; printf("%d", z
我很难理解先有定义然后有两个异或表达式的含义。这个定义的作用是什么? 我尝试发送 x=8, y=7,结果是 x=15 和 y=8为什么会这样? 这是程序: #define FUNC(a,b) a^=b
我正在尝试使用 SIMD 优化此功能,但我不知道从哪里开始。 long sum(int x,int y) { return x*x*x+y*y*y; } 反汇编函数如下所示: 4007a0
我是一名优秀的程序员,十分优秀!