- c - 在位数组中找到第一个零
- linux - Unix 显示有关匹配两种模式之一的文件的信息
- 正则表达式替换多个文件
- linux - 隐藏来自 xtrace 的命令
我有一个生成大量数据的大型并行(使用 MPI)模拟应用程序。为了评估这些数据,我使用了 Python 脚本。
我现在需要做的是多次运行此应用程序 (>1000) 并根据结果数据计算统计属性。
到目前为止,我的方法是让 python 脚本并行运行(使用 mpi4py,使用即 48 个节点)使用 subprocess.check_call
调用模拟代码。我需要这个调用来串行运行我的 mpi 模拟应用程序。在这种情况下,我不需要模拟也并行运行。然后python脚本可以并行分析数据,完成后将启动新的模拟运行,直到积累大量运行。
目标是
stub MWE:
multi_call_master.py
:from mpi4py import MPI
import subprocess
print "Master hello"
call_string = 'python multi_call_slave.py'
comm = MPI.COMM_WORLD
rank = comm.Get_rank()
size = comm.Get_size()
print "rank %d of size %d in master calling: %s" % (rank, size, call_string)
std_outfile = "./sm_test.out"
nr_samples = 1
for samples in range(0, nr_samples):
with open(std_outfile, 'w') as out:
subprocess.check_call(call_string, shell=True, stdout=out)
# analyze_data()
# communicate_results()
multi_call_slave.py
(这将是 C 模拟代码):from mpi4py import MPI
print "Slave hello"
comm = MPI.COMM_WORLD
rank = comm.Get_rank()
size = comm.Get_size()
print "rank %d of size %d in slave" % (rank, size)
这是行不通的。 stdout
中的结果输出:
Master hello
rank 1 of size 2 in master calling: python multi_call_slave_so.py
Master hello
rank 0 of size 2 in master calling: python multi_call_slave_so.py
[cli_0]: write_line error; fd=7 buf=:cmd=finalize
:
system msg for write_line failure : Broken pipe
Fatal error in MPI_Finalize: Other MPI error, error stack:
MPI_Finalize(311).....: MPI_Finalize failed
MPI_Finalize(229).....:
MPID_Finalize(150)....:
MPIDI_PG_Finalize(126): PMI_Finalize failed, error -1
[cli_1]: write_line error; fd=8 buf=:cmd=finalize
:
system msg for write_line failure : Broken pipe
Fatal error in MPI_Finalize: Other MPI error, error stack:
MPI_Finalize(311).....: MPI_Finalize failed
MPI_Finalize(229).....:
MPID_Finalize(150)....:
MPIDI_PG_Finalize(126): PMI_Finalize failed, error -1
sm_test.out
中的结果输出:
Slave hello
rank 0 of size 2 in slave
原因是,子进程假定作为并行应用程序运行,而我打算将其作为串行应用程序运行。作为一个非常“hacky”的解决方法,我做了以下事情:
如果我现在使用 intel mpi 启动我的并行 python 脚本,底层模拟将不知道周围的并行环境,因为它使用的是不同的库。
这在一段时间内运行良好,但不幸的是,由于各种原因,它不是很便携并且难以在不同的集群上维护。
我可以
srun
将子进程调用循环放入 shell 脚本中
MPI_Comm_spawn
技术
mpirun -n 1
或srun
没有帮助有什么优雅的官方方法可以做到这一点吗?我真的没有想法,感谢任何意见!
最佳答案
不,既没有优雅的也没有官方的方法来做到这一点。从 MPI 应用程序中执行其他程序的唯一官方支持的方法是使用 MPI_Comm_spawn
。通过简单的操作系统机制(如 subprocess
提供的机制)生成子 MPI 进程是危险的,在某些情况下甚至可能产生灾难性后果。
虽然 MPI_Comm_spawn
没有提供一种机制来查明子进程何时退出,但您可以使用内部通信屏障来模拟它。您仍然会遇到问题,因为 MPI_Comm_spawn
调用不允许任意重定向标准 I/O,而是重定向到 mpiexec
/mpirun
.
您可以做的是编写一个包装器脚本,删除 MPI 库可能使用的所有可能路径,以便传递 session 信息。对于 Open MPI,它可以是任何以 OMPI_
开头的环境变量。对于英特尔 MPI,这将是以 I_
开头的变量。等等。一些库可能使用文件或共享内存块或一些其他操作系统机制,您也必须注意这些。一旦消除了任何可能的 MPI session 信息通信机制,您就可以简单地启动可执行文件,它应该形成一个单独的 MPI 作业(也就是说,表现得就像使用 mpiexec -n 1
运行一样)。
关于python - 串行调用 mpi 二进制文件作为 mpi 应用程序的子进程,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/21090085/
我正在通过 labrepl 工作,我看到了一些遵循此模式的代码: ;; Pattern (apply #(apply f %&) coll) ;; Concrete example user=> (a
我从未向应用商店提交过应用,但我会在不久的将来提交。 到目前为止,我对为 iPhone 而非 iPad 进行设计感到很自在。 我了解,通过将通用PAID 应用放到应用商店,客户只需支付一次就可以同时使
我有一个应用程序,它使用不同的 Facebook 应用程序(2 个不同的 AppID)在 Facebook 上发布并显示它是“通过 iPhone”/“通过 iPad”。 当 Facebook 应用程序
我有一个要求,我们必须通过将网站源文件保存在本地 iOS 应用程序中来在 iOS 应用程序 Webview 中运行网站。 Angular 需要服务器来运行应用程序,但由于我们将文件保存在本地,我们无法
所以我有一个单页客户端应用程序。 正常流程: 应用程序 -> OAuth2 服务器 -> 应用程序 我们有自己的 OAuth2 服务器,因此人们可以登录应用程序并获取与用户实体关联的 access_t
假设我有一个安装在用户设备上的 Android 应用程序 A,我的应用程序有一个 AppWidget,我们可以让其他 Android 开发人员在其中以每次安装成本为基础发布他们的应用程序推广广告。因此
Secrets of the JavaScript Ninja中有一个例子它提供了以下代码来绕过 JavaScript 的 Math.min() 函数,该函数需要一个可变长度列表。 Example:
当我分别将数组和对象传递给 function.apply() 时,我得到 NaN 的 o/p,但是当我传递对象和数组时,我得到一个数字。为什么会发生这种情况? 由于数组也被视为对象,为什么我无法使用它
CFSDN坚持开源创造价值,我们致力于搭建一个资源共享平台,让每一个IT人在这里找到属于你的精彩世界. 这篇CFSDN的博客文章ASP转换格林威治时间函数DateDiff()应用由作者收集整理,如果你
我正在将列表传递给 map并且想要返回一个带有合并名称的 data.frame 对象。 例如: library(tidyverse) library(broom) mtcars %>% spl
我有一个非常基本的问题,但我不知道如何实现它:我有一个返回数据框,其中每个工具的返回值是按行排列的: tmp<-as.data.frame(t(data.frame(a=rnorm(250,0,1)
我正在使用我的 FB 应用创建群组并邀请用户加入我的应用群组,第一次一切正常。当我尝试创建另一个组时,出现以下错误: {"(OAuthException - #4009) (#4009) 在有更多用户
我们正在开发一款类似于“会说话的本”应用程序的 child 应用程序。它包含大量用于交互式动画的 JPEG 图像序列。 问题是动画在 iPad Air 上播放正常,但在 iPad 2 上播放缓慢或滞后
我关注 clojure 一段时间了,它的一些功能非常令人兴奋(持久数据结构、函数式方法、不可变状态)。然而,由于我仍在学习,我想了解如何在实际场景中应用,证明其好处,然后演化并应用于更复杂的问题。即,
我开发了一个仅使用挪威语的应用程序。该应用程序不使用本地化,因为它应该仅以一种语言(挪威语)显示。但是,我已在 Info.plist 文件中将“本地化 native 开发区域”设置为“no”。我还使用
读完 Anthony's response 后上a style-related parser question ,我试图说服自己编写单体解析器仍然可以相当紧凑。 所以而不是 reference ::
multicore 库中是否有类似 sapply 的东西?还是我必须 unlist(mclapply(..)) 才能实现这一点? 如果它不存在:推理是什么? 提前致谢,如果这是一个愚蠢的问题,我们深表
我喜欢在窗口中弹出结果,以便更容易查看和查找(例如,它们不会随着控制台继续滚动而丢失)。一种方法是使用 sink() 和 file.show()。例如: y <- rnorm(100); x <- r
我有一个如下所示的 spring mvc Controller @RequestMapping(value="/new", method=RequestMethod.POST) public Stri
我正在阅读 StructureMap关于依赖注入(inject),首先有两部分初始化映射,具体类类型的接口(interface),另一部分只是实例化(请求实例)。 第一部分需要配置和设置,这是在 Bo
我是一名优秀的程序员,十分优秀!