gpt4 book ai didi

c++ - 使用 GDB 在 Fortran 中调试 MPI 程序

转载 作者:行者123 更新时间:2023-11-30 05:24:21 28 4
gpt4 key购买 nike

我读了this到达here ,所以现在我认为我应该(如果不是这样,请告诉我)重写代码

{
int i = 0;
char hostname[256];
gethostname(hostname, sizeof(hostname));
printf("PID %d on %s ready for attach\n", getpid(), hostname);
fflush(stdout);
while (0 == i)
sleep(5);
}

在 Fortran 中。来自 this answer我知道在 Fortran 中我可以简单地使用 MPI_Get_processor_name 代替 gethostname。其他一切都很简单,但 flush。怎么样?

我应该把它放在哪里?在主程序之后MPI_Init?进而?我该怎么办?

关于编译选项,我引用了this并使用 -v -da -Q 作为 mpifort 包装器的选项。

This solution不适合我的情况,因为我至少需要在 27 个进程上运行该程序,所以我只想检查一个进程。

最佳答案

最简单的方法:

我实际上经常做的是在本地运行 MPI 作业并查看它的作用。没有任何上述代码。然后,如果它挂起,我使用 top 找出进程的 PID,通常可以很容易地从 PID 中猜出哪个排名(它们往往是连续的,并且最低的是等级 0)。 0 级以下是进程 1641,比它们是 1 级 pid 1642 等等......

  PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                         
1642 me 20 0 167328 7716 5816 R 100.0 0.047 0:25.02 a.out
1644 me 20 0 167328 7656 5756 R 100.0 0.047 0:25.04 a.out
1645 me 20 0 167328 7700 5792 R 100.0 0.047 0:24.97 a.out
1646 me 20 0 167328 7736 5836 R 100.0 0.047 0:25.00 a.out
1641 me 20 0 167328 7572 5668 R 99.67 0.046 0:24.95 a.out

然后我只执行 gdb -pid 并检查进程中的堆栈和局部变量。 (在 GDB 控制台中使用 help stack)

最重要的是得到回溯,所以在控制台打印bt就可以了。

这在检查死锁时会很有效。当你必须在某个特定的地方停下来时不太好。然后你必须尽早附加调试器。


您的代码:

我认为在 Fortran 中不需要刷新。我认为至少在我使用的编译器中,Fortran writeprint flush 是必要的。

但是你绝对可以使用flush语句

use iso_fortran_env

flush(output_unit)

只需在打印hostnamepidwrite 之后放置flush。但正如我所说,我将从单独打印开始。

你要做的是登录到该节点并使用类似的东西将 gdb 附加到正确的进程

gdb -pid 12345

对于 sleep ,您可以使用许多编译器中提供的非标准 sleep 内在子例程或编写您自己的子例程。

是在 MPI_Init 之前还是之后?如果要打印排名,则必须在之后。同样对于使用 MPI_Get_processor_name 它必须在之后。通常建议在您的程序中尽早调用 MPI_Init

代码是这样的

  use mpi

implicit none

character(MPI_MAX_PROCESSOR_NAME) :: hostname

integer :: rank, ie, pid, hostname_len

integer, volatile :: i

call MPI_Init(ie)

call MPI_Get_processor_name(hostname, hostname_len, ie)

!non-standard extension
pid = getpid()

call MPI_Comm_rank(MPI_COMM_WORLD, rank, ie)

write(*,*) "PID ", pid, " on ", trim(hostname), " ready for attach is world rank ", rank

!this serves to block the execution at a specific place until you unblock it in GDB by setting i=0
i = 1
do
!non-standard extension
call sleep(1)
if (i==0) exit
end do

end

重要说明:如果您使用优化进行编译,编译器会发现 i==0 永远不会为真,并且会完全删除检查。您必须降低优化或将 i 声明为 volatile。 Volatile 意味着该值可以随时更改,编译器必须从内存中重新加载其值以进行检查。这需要 Fortran 2003。

附加正确的进程:

上面的代码会打印,例如

> mpif90 -ggdb mpi_gdb.f90 
> mpirun -n 4 ./a.out

PID 2356 on linux.site ready for attach is world rank 1
PID 2357 on linux.site ready for attach is world rank 2
PID 2358 on linux.site ready for attach is world rank 3
PID 2355 on linux.site ready for attach is world rank 0

在上面他们看起来像

 PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ COMMAND                                                                                                                                         
2355 me 20 0 167328 7452 5564 R 100.0 0.045 1:42.55 a.out
2356 me 20 0 167328 7428 5548 R 100.0 0.045 1:42.54 a.out
2357 me 20 0 167328 7384 5500 R 100.0 0.045 1:42.54 a.out
2358 me 20 0 167328 7388 5512 R 100.0 0.045 1:42.51 a.out

你只需选择你想要的排名并执行

gdb -pid 2355

附加等级 0 等等。当然,在不同的终端窗口中。

然后你会得到类似的东西

MAIN__ () at mpi_gdb.f90:26
26 if (i==0) exit

(gdb) info locals
hostname = 'linux.site', ' ' <repeats 246 times>
hostname_len = 10
i = 1
ie = 0
pid = 2457
rank = 0

(gdb) set var i = 0

(gdb) cont
Continuing.
[Inferior 1 (process 2355) exited normally]

关于c++ - 使用 GDB 在 Fortran 中调试 MPI 程序,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/38699238/

28 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com