azure - 如何: Azure OpenMPI with Infiniband

azure - 如何: Azure OpenMPI with Infiniband - Linux

转载作者：行者123 更新时间：2023-12-03 12:27:51

30

4

我刚开始使用 Microsoft Azure 进行科学计算，并且在设置时遇到了一些问题。

我有一个跳线盒设置，它充当我想要使用的软件的许可证服务器，还有一个通用驱动器来存储所有软件。还设置了 6 个计算节点(16 个核心/节点)，我可以毫无问题地从跳线盒“ssh”到计算节点。跳转盒和计算节点使用 CentOS 和 OpenMPI 1.10.3

我创建了一个脚本，该脚本存储在已安装的跳线盒驱动器上，我通过“clusRun.sh”在每个计算节点上运行该脚本，该脚本设置特定于我运行的软件和 OpenMPI 的所有环境变量。希望到目前为止一切听起来都不错。

我过去经常在 Linux 集群上使用这个软件，没有出现任何问题。使用类似的命令提交作业，例如:

mpirun -np XXX -hostfile XXX {软件路径}

其中 XXX 是处理器数量和主机文件路径

我在跳转盒上运行此命令，主机文件有每个计算节点名称的列表，每个计算节点名称在主机文件中的出现次数与我想要在节点上使用的核心次数相同。希望这是有道理的!跳转盒节点上没有运行作业中的任何进程，它仅用于启 Action 业。

当我尝试以这种方式运行作业时，我收到了许多错误，其中大多数似乎与 Infiniband 相关。以下是主要错误的简短列表:

"The /dev/hfi1_0 device failed to appear after 15.0 seconds: Connection timed out"

"The OpenFabrics (openib) BTL failed to initialize while trying to create an internal queue"

"OMPI source: btl_openib.c:324
 Function: ibv_create_srq()
 Error: Function not implemented (errno=38)
 Device: mlx4_0"

“至少一对 MPI 进程无法相互进行 MPI 通信。这意味着没有 Open MPI 设备表明它可用于在这些进程之间进行通信”

是否有任何特定于 OpenMPI 的环境变量需要设置来定义任何 Infiniband 设置？我已经定义了通常的 MPI_BIN、LD_LIBRARY_PATH、PATH 等。我知道 IntelMPI 需要额外的变量。

Infiniband 应该作为 A9 HPC 分配的一部分，但我不确定它是否需要任何特定设置。当我运行“ifconfig -a”时，没有 Infiniband 特定条目(我希望看到 ib0、ib1 等)。我只有 eth0、eth1 和 lo

我期待有人能够提供任何建议。

亲切的问候!

最佳答案

如 "Repository containing the Articles on azure.microsoft.com Documentation Center" by daltskin 中所述(从已删除/隐藏 Azure/azure-content-internal fork )，第页 https://github.com/daltskin/azure-content/blob/master/articles/virtual-machines/virtual-machines-a8-a9-a10-a11-specs.md#access-to-the-rdma-network“关于A8、A9、A10和A11计算密集型实例”-“从Linux A8和A9虚拟机访问”

At this time, Azure Linux RDMA is supported only with Intel MPI Library 5.

因此，采用 OpenMPI 1.10.3 的 CentOS 可能无法使用 Azure 的虚拟化 RDMA，因为 OpenMPI 1.10.3 不是“Intel MPI Library 5”。

在官方文档中，Azure 也将 Intel MPI 列为支持 RDMA(使用 SLES 12 SP1 HPC VM): https://learn.microsoft.com/en-us/azure/virtual-machines/linux/classic/rdma-cluster “设置 Linux RDMA 集群来运行 MPI 应用程序” - 2017-3-14

Customize the VM

In a SLES 12 SP1 HPC VM, we recommend that you don't apply kernel updates, which can cause issues with the Linux RDMA drivers. Intel MPI: Complete the installation of Intel MPI on the SLES 12 SP1 HPC VM by running the following command:
 sudo rpm -v -i --nodeps /opt/intelMPI/intel_mpi_packages/*.rpm
If you want to set up a cluster based on one of the CentOS-based HPC images in the Azure Marketplace instead of SLES 12 for HPC, follow the general steps in the preceding section. Note the following differences when you provision and configure the VM: Intel MPI is already installed on a VM provisioned from a CentOS-based HPC image.

因此，有 Azure 虚拟 RDMA (Infiniband) 的专有内核驱动程序，预安装到 Azure 的 SLES 12 VM 镜像和 Azure 的 CentOS VM 镜像中，还有专有的用户空间驱动程序(因为 Infiniband 通常使用内核旁路和通话)仅在英特尔 MPI 中从用户空间到硬件进行数据移动操作。

尝试使用预装的英特尔 MPI 重新编译您的应用程序，并使用英特尔 MPI 的 mpirun/mpiexec 启动它。指令还是一样https://learn.microsoft.com/en-us/azure/virtual-machines/linux/classic/rdma-cluster :

Configure Intel MPI To run MPI applications on Azure Linux RDMA, you need to configure certain environment variables specific to Intel MPI. Here is a sample Bash script to configure the variables needed to run an application. Change the path to mpivars.sh as needed for your installation of Intel MPI.

#!/bin/bash -x

# For a SLES 12 SP1 HPC cluster

source /opt/intel/impi/5.0.3.048/bin64/mpivars.sh

# For a CentOS-based HPC cluster

# source /opt/intel/impi/5.1.3.181/bin64/mpivars.sh

export I_MPI_FABRICS=shm:dapl

# THIS IS A MANDATORY ENVIRONMENT VARIABLE AND MUST BE SET BEFORE RUNNING ANY JOB
# Setting the variable to shm:dapl gives best performance for some applications
# If your application doesn’t take advantage of shared memory and MPI together, then set only dapl

export I_MPI_DAPL_PROVIDER=ofa-v2-ib0

# THIS IS A MANDATORY ENVIRONMENT VARIABLE AND MUST BE SET BEFORE RUNNING ANY JOB

export I_MPI_DYNAMIC_CONNECTION=0

# THIS IS A MANDATORY ENVIRONMENT VARIABLE AND MUST BE SET BEFORE RUNNING ANY JOB

# Command line to run the job

mpirun -n <number-of-cores> -ppn <core-per-node> -hostfile <hostfilename>  /path <path to the application exe> <arguments specific to the application>

#end

关于azure - 如何: Azure OpenMPI with Infiniband - Linux，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/43669464/

30

4

0

文章推荐： usb - 使用 libusb : libusb_bulk_transfer() 在笔式驱动器上读/写

文章推荐： javascript - 如何使用 useBuiltIns : "usage" 排除 core-js

文章推荐： unicode - 字符集和字符编码有什么区别

文章推荐： asp.net-mvc - LINQ Distinct()

linux - 远程文本编辑 : Linux to Linux
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于 Stack Overflow 来说是偏离主题的，
linux - Linux 管道缓冲区有多少数据？ linux 管道缓冲区大小可以配置吗？
Linux 管道可以缓冲多少数据？这是可配置的吗？如果管道的两端在同一个进程中，但线程不同，这会有什么不同吗？请注意:这个“同一个进程，两个线程”的问题是理论上的边栏，真正的问题是关于缓冲的。最
linux - 用 Linux 启动 Linux？
我找到了here [最后一页] 一种有趣的通过 Linux 启动 Linux 的方法。不幸的是，它只是被提及，我在网上找不到任何有用的链接。那么有人听说过一种避免引导加载程序而使用 Linux 的方法
linux - linux 内核、linux 设备驱动程序或模块编写器程序员是否需要算法分析？
很难说出这里要问什么。这个问题模棱两可、含糊不清、不完整、过于宽泛或夸夸其谈，无法以目前的形式得到合理的回答。如需帮助澄清此问题以便重新打开，visit the help center . 关闭 1
linux - Linux ld-linux.so 的版本化符号
我试图了解 ld-linux.so 如何在 Linux 上解析对版本化符号的引用。我有以下文件: 测试.c: void f(); int main() { f(); } a.c 和 b.c:
linux - Linux 桌面应用程序可以用作 Linux 桌面吗？
与 RetroPie 的工作原理类似，我可以使用 Linux 应用程序作为我的桌面环境吗？我实际上并不需要像实际桌面和安装应用程序这样的东西。我只需要一种干净简单的方法来在 RaspberryPi 上
linux - linux 上用户和 linux 系统范围内的打开文件数是多少？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
linux - 亚马逊 Linux 与红帽 Linux
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 10 年前。 Improve thi
linux - 在 Linux (Linux mint) 中创建您自己的定制应用程序软件中心的最佳方法是什么？
有什么方法可以覆盖现有的源代码，我应该用 PyQt、PyGTK、Java 等从头开始构建吗？最佳答案如果您指的是软件本身而不是它所连接的存储库，那么自定义应用程序的方法就是 fork 项目。据我所
linux - 如何通过一个磁盘中的另一个 linux 系统更新一个 linux 系统？
我的情况是:我在一个磁盘上安装了两个 linux。我将第一个安装在/dev/sda1 中，然后在/dev/sda2 中安装第二个然后我运行第一个系统，我写了一个脚本来在第一个系统运行时更新它。
linux - 如何让 linux 驱动程序在 linux 内核加载后检测和使用设备？
我在 i2c-0 总线上使用地址为 0x3f 的系统监视器设备。该设备在设备树中配置有 pmbus 驱动程序。问题是，加载 linux 内核时，这个“Sysmon”设备没有供电。因此，当我在总线 0
linux - 在旧 Linux 版本中构建的应用程序可以在最新 Linux 中运行吗？
关闭。这个问题是off-topic .它目前不接受答案。想改进这个问题吗？ Update the question所以它是on-topic用于堆栈溢出。关闭 11 年前。 Improve thi
linux - 将 linux 内核中的函数导出到 linux 模块
我正试图在 linux 模块中分配一大块内存，而 kalloc 做不到。我知道唯一的方法是使用 alloc_bootmem(unsigned long size) 但我只能从 linux 内核而不是
linux - 我如何连接到一个简单的 linux 控制台来执行一些任何人都可以使用 linux 操作系统的基本命令？
关闭。这个问题不符合Stack Overflow guidelines .它目前不接受答案。这个问题似乎不是关于 a specific programming problem, a softwar
linux - "pwd"命令适用于所有 linux 类型的 linux？
我有 .sh 文件来运行应用程序。在该文件中，我想动态设置服务器名称，而不是每次都配置。我尝试了以下方法，它在 CentOS 中运行良好。 nohup /voip/java/jdk1.8.0_71/
linux - 将 Linux 应用程序复制到另一个 Linux 操作系统
我是在 Linux 上开发嵌入式 C++ 程序的新手。我有我的 Debian 操作系统，我在其中开发和编译了我的 C++ 项目(一个简单的控制台进程)。我想将我的应用程序放到另一个 Debian 操
linux - 如何从 Linux 向 Linux 机器发送数据或文件？
关闭。这个问题需要多问focused 。目前不接受答案。想要改进此问题吗？更新问题，使其仅关注一个问题 editing this post . 已关闭 4 年前。 Improve this ques
linux - 在 Linux 内核源代码树中哪里可以找到 Linux Logo ？
我使用4.19.78版本的稳定内核，我想找到带有企鹅二进制数据的C数组。系统启动时显示。我需要在哪里搜索该内容？我在 include/linux/linux_logo.h 文件中只找到了一些 Log
linux - 是否可以从非 linux 系统远程调试 linux 代码？
我知道可以使用 gdb 的服务器模式远程调试代码，我知道可以调试针对另一种架构交叉编译的代码，但是是否可以更进一步，从远程调试 Linux 应用程序OS X 使用 gdbserver？最佳答案当然
linux - 从一个 linux 到另一个 linux 的二进制文件
是否有任何可能的方法来运行在另一个 Linux 上编译的二进制文件？我知道当然最简单的是在另一台机器上重建它，但假设我们唯一能得到的是一个二进制文件，那么这可能与否？ (我知道这可能并不容易，但我只是

首页

博学

6Ren·AI

商城

azure - 如何: Azure OpenMPI with Infiniband - Linux