- android - RelativeLayout 背景可绘制重叠内容
- android - 如何链接 cpufeatures lib 以获取 native android 库?
- java - OnItemClickListener 不起作用,但 OnLongItemClickListener 在自定义 ListView 中起作用
- java - Android 文件转字符串
我只是在研究 C++
和 Fortran
中的递归函数,我意识到 Fortran
中的一个简单递归函数几乎是与其等效的 C++
函数一样快。现在,在进入这个之前,我知道这里有类似的问题,特别是:
但是,我有一点更具体和困惑,因为 Fortran 编译器似乎正在做你可以用 gcc
中的 asm volatile
实现的事情。为了给您一些上下文,让我们考虑以下递归 Fibonacci number
实现:
Fortran 代码:
module test
implicit none
private
public fib
contains
! Fibonacci function
integer recursive function fib(n) result(r)
integer, intent(in) :: n
if (n < 2) then
r = n
else
r = fib(n-1) + fib(n-2)
end if
end function ! end of Fibonacci function
end module
program fibonacci
use test, only: fib
implicit none
integer :: r,i
integer :: n = 1e09
real(8) :: start, finish, cum_time
cum_time=0
do i= 1,n
call cpu_time(start)
r = fib(20)
call cpu_time(finish)
cum_time = cum_time + (finish - start)
if (cum_time >0.5) exit
enddo
print*,i,'runs, average elapsed time is', cum_time/i/1e-06, 'us'
end program
编译:
gfortran -O3 -march=native
C++代码:
#include <iostream>
#include <chrono>
using namespace std;
// Fib function
int fib(const int n)
{
int r;
if (n < 2)
r = n;
else
r = fib(n-1) + fib(n-2);
return r;
} // end of fib
template<typename T, typename ... Args>
double timeit(T (*func)(Args...), Args...args)
{
double counter = 1.0;
double mean_time = 0.0;
for (auto iter=0; iter<1e09; ++iter){
std::chrono::time_point<std::chrono::system_clock> start, end;
start = std::chrono::system_clock::now();
func(args...);
end = std::chrono::system_clock::now();
std::chrono::duration<double> elapsed_seconds = end-start;
mean_time += elapsed_seconds.count();
counter++;
if (mean_time > 0.5){
mean_time /= counter;
std::cout << static_cast<long int>(counter)
<< " runs, average elapsed time is "
<< mean_time/1.0e-06 << " \xC2\xB5s" << std::endl;
break;
}
}
return mean_time;
}
int main(){
timeit(fib,20);
return 0;
}
编译:
g++ -O3 -march=native
时间:
Fortran: 24991 runs, average elapsed time is 20.087 us
C++ : 12355 runs, average elapsed time is 40.471 µs
所以 gfortran
的速度是 gcc
的两倍。查看汇编代码,我明白了
程序集(Fortran):
.L28:
cmpl $1, %r13d
jle .L29
leal -8(%rbx), %eax
movl %ecx, 12(%rsp)
movl %eax, 48(%rsp)
leaq 48(%rsp), %rdi
leal -9(%rbx), %eax
movl %eax, 16(%rsp)
call __bench_MOD_fib
leaq 16(%rsp), %rdi
movl %eax, %r13d
call __bench_MOD_fib
movl 12(%rsp), %ecx
addl %eax, %r13d
汇编(C++):
.L28:
movl 72(%rsp), %edx
cmpl $1, %edx
movl %edx, %eax
jle .L33
subl $3, %eax
movl $0, 52(%rsp)
movl %eax, %esi
movl %eax, 96(%rsp)
movl 92(%rsp), %eax
shrl %eax
movl %eax, 128(%rsp)
addl %eax, %eax
subl %eax, %esi
movl %edx, %eax
subl $1, %eax
movl %esi, 124(%rsp)
movl %eax, 76(%rsp)
两个汇编代码都是由几乎相似的 block /标签一遍又一遍地重复组成的。如您所见,Fortran 程序集对 fib
函数进行了两次调用,而在 C++ 程序集中,gcc
可能展开了所有可能需要更多堆栈的递归调用 push/pop
和尾部跳跃。
现在如果我像这样在 C++ 代码中放置一个内联汇编注释
修改后的 C++ 代码:
// Fib function
int fib(const int n)
{
int r;
if (n < 2)
r = n;
else
r = fib(n-1) + fib(n-2);
asm("");
return r;
} // end of fib
生成的汇编代码,修改为
程序集(C++ 修改版):
.L7:
cmpl $1, %edx
jle .L17
leal -4(%rbx), %r13d
leal -5(%rbx), %edx
cmpl $1, %r13d
jle .L19
leal -5(%rbx), %r14d
cmpl $1, %r14d
jle .L55
leal -6(%rbx), %r13d
movl %r13d, %edi
call _Z3fibi
leal -7(%rbx), %edi
movl %eax, %r15d
call _Z3fibi
movl %r13d, %edi
addl %eax, %r15d
您现在可以看到对 fib
函数的两次调用。计时他们给了我
时间:
Fortran: 24991 runs, average elapsed time is 20.087 us
C++ : 25757 runs, average elapsed time is 19.412 µs
我知道没有输出的 asm
和 asm volatile
的效果是抑制积极的编译器优化,但在这种情况下,gcc
认为它太聪明了,但最终最终生成了效率较低的代码。
那么问题是:
gcc
看不到这种“优化”,而 gfortan
显然可以? C
或 C++
中是否有更安全的方法来加 express 归速度(不依赖于内联汇编或迭代式编码)?也许可变参数模板? 更新:
gcc 4.8.4
。我也尝试用 gcc 4.9.2
和 gcc 5.2
编译它,我得到了相同的结果。asm
声明为 volatile,即 (volatile int n)
而不是 (const int n)
,虽然这会导致我机器上的运行时间稍微慢一些。-fno-optimize-sibling-calls
标志来解决这个问题。由于此标志在 -O2
级别及更高级别被激活,因此即使使用 -O1
进行编译也可以解决此问题。-O3 -march=native
运行了同样的例子,clang 3.5.1
虽然情况不一样,clang
似乎也可以用 asm
生成更快的代码。 Clang 计时:
clang++ w/o asm : 8846 runs, average elapsed time is 56.4555 µs
clang++ with asm : 10427 runs, average elapsed time is 47.8991 µs
最佳答案
请参阅此答案末尾的粗体字,了解如何获得 gcc 生成的快速程序。阅读四个问题的答案。
您的第一个问题假设 gfortran
能够看到 gcc
的优化可能性没看到。事实上,情况正好相反。 gcc
确定了它认为是优化可能性的东西,而 gfortran
错过了。唉,gcc
是错误的,它应用的优化结果是你的系统有 100% 的速度损失(与我的相比)。
要解决您的第二个问题:asm
声明阻止了内部转换,使 gcc
看到错误的优化可能性。没有 asm
声明,您的代码已(有效)转换为:
int fib(const int n)
{
if (n < 2)
return n;
else
return fib(n-1) + fib(n-2);
}
包含递归调用的返回语句会触发使您的代码悲观的“同级调用优化”。包含 asm 语句可防止在其中移动返回指令。
目前,我手头只有 gcc,所以我无法尝试其他编译器的行为来通过证据回答你的第三个问题,但这似乎绝对依赖于编译器。您遇到了 gcc 的一个怪癖(或错误,无论您怎么调用它),它在尝试优化它时生成了错误的代码。不同编译器的优化器非常不同,因此很可能其他一些编译器不会错误优化您的代码,如 gcc
做。另一方面,用于优化的代码转换是一个经过深入研究的主题,大多数编译器都在实现类似的优化方法,因此另一个编译器可能会陷入与 gcc
相同的陷阱。 .
最后一个问题:这不是关于 C/C++ 与 Fortan 的问题,而是关于 gcc
的问题。这搞砸了这个示例程序(以及可能类似的生产程序)。所以没有办法在C++
中使递归更快,但在 gcc
中有一种方法可以加快此示例的速度 ,通过禁用有问题的优化: -fno-optimize-sibling-calls
,这导致(在我的系统上,在一次测试运行中)比仅插入 asm
更快的代码声明。
关于c++ - gcc 的 asm volatile 是否等同于递归的 gfortran 默认设置?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/32974625/
我正在尝试在 Conda 环境中编译一些代码,在那里我 之前安装的编译包gcc_linux-64 . 然而,即使在停用和重新激活环境之后,gcc还在/usr/bin/gcc . 我该怎么做才能让 Co
关闭。这个问题是opinion-based .它目前不接受答案。 想要改进这个问题? 更新问题,以便 editing this post 可以用事实和引用来回答它. 关闭 7 年前。 Improve
这其实是两个问题: 1 - 在我的 debian amd64 系统上,我似乎无法构建与 gmp/mpfr/mpc 动态链接的交叉 GCC。即使我删除 --disable-shared,它也总是静态链接
研究ELF格式的结果,可以看到目标文件中有一个符号对应每个函数,对应的符号表项的值为st_size,表示大小的功能。 问题是,即使我更改了目标文件中特定函数的 st_size 并链接了它,但可执行文件
海湾合作委员会的 documentation for #line directives说他们是这样的: #line "myfile.cpp" 123 但是当我用 g++ 5.1 检查输出时,它们实际上
我正在使用 as 和 gcc 来汇编和创建 ARM 汇编程序的可执行文件,正如 this 所推荐的那样教程,如下: 给定一个汇编源文件,program.s,我运行: as -o program.o p
long long x; double n; x=long long(n); 这不起作用。什么是正确的方法? 最佳答案 显而易见的: x = (long long) n; 关于gcc - 转换为长长
我想知道用于 gcc 的原子内置函数的头文件是什么? 我想使用这 2 个函数为我当前创建的线程库实现互斥锁。 bool __sync_bool_compare_and_swap (type *ptr,
它出现在 another question :gcc调用的程序和部件是什么? (特别是在编译 C 或 C++ 时)以便有人可以设计一些拦截和更改流程的方案以用于各种自定义编码目的? 最佳答案 编译器二
可能吗?我想使用 gcc喜欢 assembler并在将其编译为 ubuntu 上的可执行文件后。 我尝试过这个: gcc a.asm -o out.o 来自 out.o文件编译成.out可执行文件。
我写了一个简单的 C 程序 test.c : #include #include int add(int a, int b); int main() { int i=5,j=10;
即。所以如果你使用任何八进制文字,它会给你一个警告。 微软编译器的同样问题。 如果没有,是否有任何其他工具可以检测八进制文字。 (vim 似乎有一个很酷的技巧,它突出了第一个领先的将不同的颜色归零,但
我在旧线程中搜索。但没有找到任何线程回答我的问题。 gcc 是否像 vc++ 一样支持函数级链接? 如果是,我应该提供什么选项来链接目标文件和库? 最佳答案 看起来 gcc 不直接支持函数级链接。您可
也许标题并没有把问题说得那么准确:我知道当我运行 gcc foo.c 时,GCC 会调用其他为它完成所有工作的子程序,从而生成主 gcc 程序只是一个界面。但这究竟是如何完成的呢? 它是否使用syst
我听说最近版本的 gcc 非常擅长将通过函数指针的调用转换为直接调用。但是,我在网上或快速浏览 gcc 的源代码上找不到任何关于它的信息。有谁知道这是否真的是真的,如果是这样,它使用什么算法来做到这一
gcc/g++ 链接器选项“-Map”生成的“.map”文件用于什么? 以及如何阅读它们? 最佳答案 我建议为您投入生产的任何软件生成一个映射文件并保留一份副本。 它可用于破译崩溃报告。根据系统的不同
gcc信息文件在有关x86-64特定标志的部分中说 其他事情: There is no `-march=generic' option because `-march' ind
我想知道 gcc 链接器选项(例如:-Wl,options)是否可以更改编译后的可执行文件中的汇编指令,因为如果您使用某些 gcc 优化选项会发生这种情况? 当您比较编译后的二进制文件(例如比较签名)
是否有GCC编译指示会停止,暂停或中止编译过程? 我正在使用gcc 4.1,但也希望在gcc 3.x版本上也可以使用该编译指示。 最佳答案 您可能需要#error: edd@ron:/tmp$ g++
当我使用gcc编译C程序时我通常使用 -g 将一些调试信息放入 elf 文件中这样 gdb 就可以在需要时帮助我。 但是,我注意到有些程序使用 -ggdb,因为它应该使调试信息对 gdb 更加友好。
我是一名优秀的程序员,十分优秀!