gpt4 book ai didi

cuda - Runge-Kutta 4 与 CUDA Fortran

转载 作者:行者123 更新时间:2023-12-01 01:03:59 25 4
gpt4 key购买 nike

我正在尝试将此 FORTRAN 程序(钟摆运动)转换为 CUDA FORTRAN,但我只能使用 1 个 block 和两个线程。有没有办法使用超过 2 个线程....

MODULE CB
REAL :: Q,B,W
END MODULE CB

PROGRAM PENDULUM
USE CB
IMPLICIT NONE
INTEGER, PARAMETER :: N=10,L=100,M=1
INTEGER :: I,count_rate,count_max,count(2)
REAL :: PI,H,T,Y1,Y2,G1,G1F,G2,G2F
REAL :: DK11,DK21,DK12,DK22,DK13,DK23,DK14,DK24

REAL, DIMENSION (2,N) :: Y

PI = 4.0*ATAN(1.0)
H = 3.0*PI/L
Q = 0.5
B = 0.9
W = 2.0/3.0
Y(1,1) = 0.0
Y(2,1) = 2.0

DO I = 1, N-1
T = H*I
Y1 = Y(1,I)
Y2 = Y(2,I)
DK11 = H*G1F(Y1,Y2,T)
DK21 = H*G2F(Y1,Y2,T)
DK12 = H*G1F((Y1+DK11/2.0),(Y2+DK21/2.0),(T+H/2.0))
DK22 = H*G2F((Y1+DK11/2.0),(Y2+DK21/2.0),(T+H/2.0))
DK13 = H*G1F((Y1+DK12/2.0),(Y2+DK22/2.0),(T+H/2.0))
DK23 = H*G2F((Y1+DK12/2.0),(Y2+DK22/2.0),(T+H/2.0))
DK14 = H*G1F((Y1+DK13),(Y2+DK23),(T+H))
DK24 = H*G2F((Y1+DK13),(Y2+DK23),(T+H))
Y(1,I+1) = Y(1,I)+(DK11+2.0*(DK12+DK13)+DK14)/6.0
Y(2,I+1) = Y(2,I)+(DK21+2.0*(DK22+DK23)+DK24)/6.0

! Bring theta back to the region [-pi,pi]
Y(1,I+1) = Y(1,I+1)-2.0*PI*NINT(Y(1,I+1)/(2.0*PI))

END DO

call system_clock ( count(2), count_rate, count_max )

WRITE (6,"(2F16.8)") (Y(1,I),Y(2,I),I=1,N,M)

END PROGRAM PENDULUM

FUNCTION G1F (Y1,Y2,T) RESULT (G1)
USE CB
IMPLICIT NONE
REAL :: Y1,Y2,T,G1
G1 = Y2
END FUNCTION G1F

FUNCTION G2F (Y1,Y2,T) RESULT (G2)
USE CB
IMPLICIT NONE
REAL :: Y1,Y2,T,G2
G2 = -Q*Y2-SIN(Y1)+B*COS(W*T)
END FUNCTION G2F

程序的 CUDA FORTRAN 版本


MODULE KERNEL

CONTAINS
attributes(global) subroutine mykernel(Y_d,N,L,M)

INTEGER,value:: N,L,M
INTEGER ::tid
REAL:: Y_d(:,:)
REAL :: PI,H,T,G1,G1F,G2,G2F
REAL,shared :: DK11,DK21,DK12,DK22,DK13,DK23,DK14,DK24,Y1,Y2

PI = 4.0*ATAN(1.0)
H = 3.0*PI/L
Y_d(1,1) = 0.0
Y_d(2,1) = 2.0
tid=threadidx%x

DO I = 1, N-1
T = H*I
Y1 = Y_d(1,I)
Y2 = Y_d(2,I)

if(tid==1)then
DK11 = H*G1F(Y1,Y2,T)
else
DK21 = H*G2F(Y1,Y2,T)
endif

call syncthreads ()

if(tid==1)then
DK12 = H*G1F((Y1+DK11/2.0),(Y2+DK21/2.0),(T+H/2.0))
else
DK22 = H*G2F((Y1+DK11/2.0),(Y2+DK21/2.0),(T+H/2.0))
endif

call syncthreads ()

if(tid==1)then
DK13 = H*G1F((Y1+DK12/2.0),(Y2+DK22/2.0),(T+H/2.0))
else
DK23 = H*G2F((Y1+DK12/2.0),(Y2+DK22/2.0),(T+H/2.0))
endif

call syncthreads ()

if(tid==1)then
DK14 = H*G1F((Y1+DK13),(Y2+DK23),(T+H))
else
DK24 = H*G2F((Y1+DK13),(Y2+DK23),(T+H))
endif

call syncthreads ()

if(tid==1)then
Y_d(1,I+1) = Y1+(DK11+2.0*(DK12+DK13)+DK14)/6.0
else
Y_d(2,I+1) = Y2+(DK21+2.0*(DK22+DK23)+DK24)/6.0
endif

Y_d(1,I+1) = Y_d(1,I+1)-2.0*PI*NINT(Y_d(1,I+1)/(2.0*PI))

call syncthreads ()

END DO

end subroutine mykernel

attributes(device) FUNCTION G1F (Y1,Y2,T) RESULT (G1)
IMPLICIT NONE
REAL :: Y1,Y2,T,G1
G1 = Y2
END FUNCTION G1F

attributes(device) FUNCTION G2F (Y1,Y2,T) RESULT (G2)
IMPLICIT NONE
REAL :: Y1,Y2,T,G2
G2 = -0.5*Y2-SIN(Y1)+0.9*COS((2.0/3.0)*T)
END FUNCTION G2F

END MODULE KERNEL

PROGRAM PENDULUM

use cudafor
use KERNEL

IMPLICIT NONE
INTEGER, PARAMETER :: N=100000,L=1000,M=1
INTEGER :: I,d,count_max,count_rate

REAL,device :: Y_d(2,N)
REAL, DIMENSION (2,N) :: Y
INTEGER :: count(2)

call mykernel<<<1,2>>>(Y_d,N,L,M)

Y=Y_d

WRITE (6,"(2F16.8)") (Y(1,I),Y(2,I),I=1,N,M)

END PROGRAM PENDULUM

最佳答案

通过对原始串行代码进行数据依赖性分析,您可以看到只有两个独立的执行线程是可能的。最容易将其视为“外部”和“内部”部分。

“外部”部分是 Y(1:2,i+1)Y(1:2,i) 的依赖。在每个时间步,都需要使用Y(1:2,i)的值来计算Y(1:2,i+1),所以不是可以并行执行多个时间步长的计算,这仅仅是因为串行依赖结构——您需要知道时间 i 发生了什么才能计算时间 i+1,你需要知道时间 i+1 发生了什么,才能计算时间 i+2 发生什么,等等。您希望做的最好的事情是并行计算 Y(1,i+1)Y(2,i+1),这正是您想要的做。

“内部”部分基于 Runge-Kutta 方案中的中间值、代码中的 DK11DK12 等值之间的依赖关系。在计算Y(1:2,i+1)时,每个DK[n,m]都依赖于Y(1:2,i) 并且对于 m > 1,每个 DK[n,m] 都依赖于 DK[1,m-1]DK[2,m-1]。如果您绘制这些依赖关系的图表(我的 ASCII 艺术技能真的不够好!),您会看到在计算的每个步骤中只有两个可以并行执行的可能子计算。

所有这一切的结果是,对于此计算,您不能比两个并行线程做得更好。正如上面的一位评论者所说,如果您模拟粒子系统或其他具有多个独立自由度的机械系统,您肯定可以做得更好,然后您可以将它们并行集成。

关于cuda - Runge-Kutta 4 与 CUDA Fortran,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/14576470/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com