- Java 双重比较
- java - 比较器与 Apache BeanComparator
- Objective-C 完成 block 导致额外的方法调用?
- database - RESTful URI 是否应该公开数据库主键?
我正在用 C++ 使用 MPI 编写一个程序(我将称之为“启动器”)以“生成”第二个可执行文件(“从属”)。根据集群有多少节点可用于启动器,它将在每个节点上启动从站,从站也将通过 MPI 与启动器通信。当 slave 完成其数学计算后,它会告诉启动器该节点现在可用,并且启动器将另一个 slave 生成到空闲节点。关键是要在异构机器组上运行 1000 个依赖于第二个可执行文件的独立计算。
这是在我自己的计算机上工作的,我在其中创建了一个“假”机器文件(或主机文件),为程序提供了两个节点:localhost 和 localhost。发射器产生两个奴隶,当其中一个奴隶结束时,另一个奴隶被发射。这告诉我产卵过程工作正常。
当我将它移动到我实验室的集群时(使用 torque/maui 来管理它),如果我要求 1(一个)节点,它也可以工作。如果我要求更多,我会得到一个缺少库的错误(libimf.so,准确地说是来自英特尔编译器的库)。库在那里,节点可以看到它,因为如果我只请求一个节点,程序就会运行。
我的 PBS 看起来像这样:
#!/bin/bash
#PBS -q small
#PBS -l nodes=1:ppn=8:xeon
#PBS -l walltime=1:00:00
#PBS -N MyJob
#PBS -V
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/mpich2.shared.exec/lib/:/opt/intel/composerxe-2011.3.174/compiler/lib/intel64/:/usr/local/boost/lib/
log_file="output_pbs.txt"
cd $PBS_O_WORKDIR
echo "Beginning PBS script." > $log_file
echo "Executing on hosts ($PBS_NODEFILE): " >> $log_file
cat $PBS_NODEFILE >> $log_file
echo "Running your stuff now!" >> $log_file
# mpiexec is needed in order to let "launcher" call MPI_Comm_spawn.
/usr/local/mpich2.shared.exec/bin/mpiexec -hostfile $PBS_NODEFILE -n 1 /home/user/launhcer --hostfile $PBS_NODEFILE -r 1 >> $log_file 2>&1
echo "Fim do pbs." >> $log_file
当我尝试两个或更多节点时,启动器不会生成任何可执行文件。我得到这样的输出:
Beginning PBS script.
Executing on hosts (/var/spool/torque/aux//2742.cluster):
node3
node3
node3
node3
node3
node3
node3
node3
node2
node2
node2
node2
node2
node2
node2
node2
Running your stuff now!
(Bla bla bla from launcher initialization)
Spawning!
/usr/local/mpich2.shared.exec/bin/hydra_pmi_proxy: error while loading shared libraries: libimf.so: cannot open shared object file: No such file or directory
我在邮件列表中发现另一个人遇到了和我一样的问题,但没有解决方案。 (http://lists.mcs.anl.gov/pipermail/mpich-discuss/2011-July/010442.html)。唯一的答案建议尝试查找节点是否可以看到 lib(如果存储 lib 的目录安装在节点上),所以我尝试了一个
ssh node2 ls/opt/intel/composerxe-2011.3.174/compiler/lib/intel64/libimf.so >> $log_file
在我的 PBS 脚本中,lib 存在于节点可以看到的文件夹中。
在我看来,似乎 torque/maui 没有将环境变量导出到所有节点(尽管我不知道为什么不导出),所以当我尝试使用 MPI_Spawn 在另一个节点中运行另一个可执行文件时节点,它找不到库。这有任何意义吗?如果是这样,你能提出一个解决方案吗?任何人都可以提供任何其他想法吗?提前致谢,马塞洛
编辑:
按照其中一个答案中的建议,我安装了 OpenMPI 以使用 mpiexec 测试选项“-x VARNAME”。在 PBS 脚本中,我将执行行更改为以下内容:
/usr/local/openmpi144/bin/mpiexec -x LD_LIBRARY_PATH -hostfile $PBS_NODEFILE -n 1 /var/dipro/melomcr/GSAFold_2/gsafold --hostfile $PBS_NODEFILE -r 1 >> $log_file 2>&1
但收到以下错误信息:
[node5:02982] [[3837,1],0] ORTE_ERROR_LOG: A message is attempting to be sent to a process whose contact information is unknown in file rml_oob_send.c at line 105
[node5:02982] [[3837,1],0] could not get route to [[INVALID],INVALID]
[node5:02982] [[3837,1],0] ORTE_ERROR_LOG: A message is attempting to be sent to a process whose contact information is unknown in file base/plm_base_proxy.c at line 86
从互联网上我可以了解到这个错误通常来自多次执行 mpiexec,比如 /path/to/mpiexec mpiexec -n 2 my_program
这不是我的情况。
我相信我应该补充一点,生成的“从属”程序使用端口与“启动器”程序通信。 launcher 使用 MPI_Open_port 和 MPI_Comm_accept 打开一个端口,然后在从运行 MPI_Comm_connect 时等待从程序连接。
就像我上面说的,当我只要求一个节点时,所有这些都有效(使用 MPICH2)。使用 OpenMPI,当我只请求一个节点时,甚至 都会出现上述错误。
最佳答案
你是对的。远低于集群软件的远程调用不传递环境变量。
关于c++ - 如果可执行文件在两个或多个节点上运行,为什么不能看到环境变量?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12252490/
我在文档中找不到答案,所以我在这里问。 在 Grails 中,当您创建应用程序时,您会默认获得生产、开发等环境。 如果您想为生产构建 WAR,您可以运行以下任一命令: grails war 或者 gr
我们组织的网站正在迁移到 Sitecore CMS,但我们正在努力以某种方式为开发人员 (4)、设计师 (4)、QA 人员 (3)、作者 (10-15) 和批准者 (4-10) 设置环境在他们可以独立
如何在WinCVS中设置CVSROOT环境变量? 最佳答案 简单的回答是:您不需要。 CVSROOT 环境变量被高估了。 CVS(NT) 只会在确定存储库连接字符串的所有其他方法都已用尽时才使用它。人
我最近完成了“learnyouahaskell”一书,现在我想通过构建 yesod 应用程序来应用我所学到的知识。 但是我不确定如何开始。 关于如何设置 yesod 项目似乎有两个选项。一是Stack
在这一章中,我们将讨论创建 C# 编程所需的工具。我们已经提到 C# 是 .Net 框架的一部分,且用于编写 .Net 应用程序。因此,在讨论运行 C# 程序的可用工具之前,让我们先了解一下 C#
运行Ruby 代码需要配置 Ruby 编程语言的环境。本章我们会学习到如何在各个平台上配置安装 Ruby 环境。 各个平台上安装 Ruby 环境 Linux/Unix 上的 Ruby 安装
就目前而言,这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持,但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开,visit the he
我有一个这样的计算(请注意,这只是非常简化的、缩减版的、最小的可重现示例!): computation <- function() # simplified version! { # a lo
我使用环境作为哈希表。键是来自常规文本文档的单词,值是单个整数(某个其他结构的索引)。 当我加载数百万个元素时,更新和查找都变慢了。下面是一些代码来显示行为。 看起来从一开始的行为在 O(n) 中比在
我正在构建一个 R 包并使用 data-raw和 data存储预定义的库 RxODE楷模。这非常有效。 然而,由此产生的.rda文件每代都在变化。某些模型包含 R 环境,并且序列化似乎包含“创建时间”
(不确定问题是否属于这里,所以道歉是为了) 我很喜欢 Sublime Text ,我经常发现 Xcode 缺少一些文本/数据处理的东西。我可能有不止一个问题—— 'Command +/' 注释代码但没
我正在使用 SF2,并且创建了一些有助于项目调试的路由: widget_debug_page: path: /debug/widget/{widgetName} defau
我创建了一个名为 MyDjangoEnv 的 conda 环境。当我尝试使用 source activate MyDjangoEnv 激活它时,出现错误: No such file or direct
有没有办法区分从本地机器运行的包和从 Cordova 应用商店安装的包? 例如,我想像这样设置一个名为“evn”的 JavaScript 变量: if(cordovaLocal){ env = 'de
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈,无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开,visit the help center . 关闭 1
我的任务是使用 java 和 mysql 开发一个交互式网站:使用 servlet 检索和处理数据,applet 对数据客户端进行特殊处理,并处理客户端对不同数据 View 的请求。 对于使用 jav
这按预期工作: [dgorur@ted ~]$ env -i env [dgorur@ted ~]$ 这样做: [dgorur@ted ~]$ env -i which date which: no
我想进行非常快速的搜索,看来使用哈希(通过环境)是最好的方法。现在,我得到了一个在环境中运行的示例,但它没有返回我需要的内容。 这是一个例子: a system.time(benchEnv(), g
我想开始开发 OpenACC 程序,我有几个问题要问:是否可以在 AMD gpu 上执行 OpenACC 代码? 如果是这样,我正在寻找适用于 Windows 环境的编译器。我花了将近一个小时什么也没
这可能看起来很奇怪,但是有没有办法制作机器(linux/unix 风格 - 最好是 RHEL)。我需要控制机器的速度以确保代码在非常慢的系统上工作并确定正确的断点(在时间方面)。 我能做到的一种方法是
我是一名优秀的程序员,十分优秀!