- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我刚开始使用 Microsoft Azure 进行科学计算,并且在设置时遇到了一些问题。
我有一个跳线盒设置,它充当我想要使用的软件的许可证服务器,还有一个通用驱动器来存储所有软件。还设置了 6 个计算节点(16 个核心/节点),我可以毫无问题地从跳线盒“ssh”到计算节点。跳转盒和计算节点使用 CentOS 和 OpenMPI 1.10.3
我创建了一个脚本,该脚本存储在已安装的跳线盒驱动器上,我通过“clusRun.sh”在每个计算节点上运行该脚本,该脚本设置特定于我运行的软件和 OpenMPI 的所有环境变量。希望到目前为止一切听起来都不错。
我过去经常在 Linux 集群上使用这个软件,没有出现任何问题。使用类似的命令提交作业,例如:
mpirun -np XXX -hostfile XXX {软件路径}
其中 XXX 是处理器数量和主机文件路径
我在跳转盒上运行此命令,主机文件有每个计算节点名称的列表,每个计算节点名称在主机文件中的出现次数与我想要在节点上使用的核心次数相同。希望这是有道理的!跳转盒节点上没有运行作业中的任何进程,它仅用于启 Action 业。
当我尝试以这种方式运行作业时,我收到了许多错误,其中大多数似乎与 Infiniband 相关。以下是主要错误的简短列表:
"The /dev/hfi1_0 device failed to appear after 15.0 seconds: Connection timed out"
"The OpenFabrics (openib) BTL failed to initialize while trying to create an internal queue"
"OMPI source: btl_openib.c:324
Function: ibv_create_srq()
Error: Function not implemented (errno=38)
Device: mlx4_0"
“至少一对 MPI 进程无法相互进行 MPI 通信。这意味着没有 Open MPI 设备表明它可用于在这些进程之间进行通信”
是否有任何特定于 OpenMPI 的环境变量需要设置来定义任何 Infiniband 设置?我已经定义了通常的 MPI_BIN、LD_LIBRARY_PATH、PATH 等。我知道 IntelMPI 需要额外的变量。
Infiniband 应该作为 A9 HPC 分配的一部分,但我不确定它是否需要任何特定设置。当我运行“ifconfig -a”时,没有 Infiniband 特定条目(我希望看到 ib0、ib1 等)。我只有 eth0、eth1 和 lo
我期待有人能够提供任何建议。
亲切的问候!
最佳答案
如 "Repository containing the Articles on azure.microsoft.com Documentation Center" by daltskin 中所述(从已删除/隐藏 Azure/azure-content-internal fork ),第 页 https://github.com/daltskin/azure-content/blob/master/articles/virtual-machines/virtual-machines-a8-a9-a10-a11-specs.md#access-to-the-rdma-network“关于A8、A9、A10和A11计算密集型实例”-“从Linux A8和A9虚拟机访问”
At this time, Azure Linux RDMA is supported only with Intel MPI Library 5.
因此,采用 OpenMPI 1.10.3 的 CentOS 可能无法使用 Azure 的虚拟化 RDMA,因为 OpenMPI 1.10.3 不是“Intel MPI Library 5”。
在官方文档中,Azure 也将 Intel MPI 列为支持 RDMA(使用 SLES 12 SP1 HPC VM): https://learn.microsoft.com/en-us/azure/virtual-machines/linux/classic/rdma-cluster “设置 Linux RDMA 集群来运行 MPI 应用程序” - 2017-3-14
Customize the VM
In a SLES 12 SP1 HPC VM, we recommend that you don't apply kernel updates, which can cause issues with the Linux RDMA drivers. Intel MPI: Complete the installation of Intel MPI on the SLES 12 SP1 HPC VM by running the following command:
sudo rpm -v -i --nodeps /opt/intelMPI/intel_mpi_packages/*.rpm
If you want to set up a cluster based on one of the CentOS-based HPC images in the Azure Marketplace instead of SLES 12 for HPC, follow the general steps in the preceding section. Note the following differences when you provision and configure the VM: Intel MPI is already installed on a VM provisioned from a CentOS-based HPC image.
因此,有 Azure 虚拟 RDMA (Infiniband) 的专有内核驱动程序,预安装到 Azure 的 SLES 12 VM 镜像和 Azure 的 CentOS VM 镜像中,还有专有的用户空间驱动程序(因为 Infiniband 通常使用内核旁路和通话)仅在英特尔 MPI 中从用户空间到硬件进行数据移动操作。
尝试使用预装的英特尔 MPI 重新编译您的应用程序,并使用英特尔 MPI 的 mpirun/mpiexec 启动它。指令还是一样https://learn.microsoft.com/en-us/azure/virtual-machines/linux/classic/rdma-cluster :
Configure Intel MPI To run MPI applications on Azure Linux RDMA, you need to configure certain environment variables specific to Intel MPI. Here is a sample Bash script to configure the variables needed to run an application. Change the path to
mpivars.sh
as needed for your installation of Intel MPI.#!/bin/bash -x
# For a SLES 12 SP1 HPC cluster
source /opt/intel/impi/5.0.3.048/bin64/mpivars.sh
# For a CentOS-based HPC cluster
# source /opt/intel/impi/5.1.3.181/bin64/mpivars.sh
export I_MPI_FABRICS=shm:dapl
# THIS IS A MANDATORY ENVIRONMENT VARIABLE AND MUST BE SET BEFORE RUNNING ANY JOB
# Setting the variable to shm:dapl gives best performance for some applications
# If your application doesn’t take advantage of shared memory and MPI together, then set only dapl
export I_MPI_DAPL_PROVIDER=ofa-v2-ib0
# THIS IS A MANDATORY ENVIRONMENT VARIABLE AND MUST BE SET BEFORE RUNNING ANY JOB
export I_MPI_DYNAMIC_CONNECTION=0
# THIS IS A MANDATORY ENVIRONMENT VARIABLE AND MUST BE SET BEFORE RUNNING ANY JOB
# Command line to run the job
mpirun -n <number-of-cores> -ppn <core-per-node> -hostfile <hostfilename> /path <path to the application exe> <arguments specific to the application>
#end
关于azure - 如何: Azure OpenMPI with Infiniband - Linux,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/43669464/
似乎有很多方法可以在 Azure 中自动使用 PowerShell。由于 ARM 模板是最新的,Azure 中的其他 PowerShell 选项是否已过时?这些工具/脚本之间有什么区别: Azure
我正在开发一个将托管在 Azure 中的 Web API。我想使用 Azure 诊断将错误记录到 Azure 表存储中。在经典门户中,我可以将日志配置为转到 Azure 表存储。 Classic Po
Azure 文件存储事件可以触发 Azure WebJob 或 Azure Function 吗? 例如,在文件夹“/todo/”中创建文件时。 最佳答案 我们目前没有任何 Azure 文件绑定(bi
我需要创建一个逻辑应用程序,我的要求是,我需要从 azure data Lake Gen2 文件夹迁移 json 文件,并根据某些值需要将该 json 转换为 xml,然后将其发送到 SQL。 因此,
我使用 VS Code 创建了 1 个 node.js 和 1 个 java Azure Function 当我使用 VS Code 将这两个函数部署到 Azure 时,我最终获得了这么多 Azure
收集 Azure 诊断数据时,暂存槽是否也会将诊断数据发送到 WadPerformanceCounters 表? 如果是这样,我该如何关闭它?或者在阅读诊断信息时如何区分暂存/生产。 我不想显示有关我
您好,我是 Azure 的新手。我有 VS 2012 和 Azure SDK 2.1,当我使用模拟器运行我的 Web 应用程序时一切正常。但是当我在 azure 上部署时出现错误消息: Could n
我很难区分 Azure 订阅和 Azure 租户有何不同?我尝试使用示例来弄清楚,但每次我得出的结论是它们在某种程度上是相同的?如果租户是组织在注册 Microsoft 云服务时接收并拥有的 Azur
如果我想在 Azure Insights 中设置自定义指标集合,并以(近)实时的方式可视化其中一些指标,并查看聚合的历史数据,我应该使用 Azure Metrics Explorer 还是 Azure
我想了解具有以下配置的 Azure 数据工厂 (ADF) 的现实示例/用例: Azure 集成运行时 (AIR) 默认值 自托管集成运行时(SHIR) 其他问题: 这两种配置(AIR 和 SHIR)是
请参阅下面来自 Azure 服务总线的指标。想要识别请求数量中的背景噪音|流量较低时的响应。假设振荡请求| session 中 amqp 握手的响应是潜在的。只是不明白这是什么类型的握手?从总线接收的
此问题与 Azure 事件中心和 Azure 服务总线之间的区别无关。 问题如下: 如果您将Azure Events Hub添加到您的应用程序中,那么您会注意到它依赖于Azure Service Bu
这两个事情是完全不同的,还是它们能完成的事情大致相同/相似? 最佳答案 Azure 辅助角色是“应用程序场”中您自己的一组虚拟机。您可以以分布式方式在它们上运行任何代码。通常,您编写业务代码以在这些服
我目前正在使用 Windows Azure 虚拟机来运行 RStudio, 我的虚拟机是 Windows Server R2 2012,它是 Azure 上的一项附加服务。 我还有一个 Azure 存
我们正在寻找托管一个网站(一些 css、js、一个 html 文件,但不是 aspx、一个通用处理程序)。 我们部署为: 1) Azure 网站 2) Azure 云服务 两种解决方案都有效。但有一个
我想从 Azure 表创建 blob。 AzCopy 支持此功能,但我找不到任何说明数据移动 API 也支持它的文档。此选项可用吗? https://azure.microsoft.com/en-us
This article表示 Azure 订阅所有者有权访问订阅中的所有资源。但是,要访问 Azure 数据库,必须是数据库中的用户,或者是 Azure Admin AD 组的成员。 无论 SQL 安
我尝试使用以下代码将 XML 文件上传到 Azure FTP 服务器: https://www.c-sharpcorner.com/article/upload-and-download-files-
除了 Azure 服务总线使用主题而 Azure 事件中心基于事件 - Azure 事件中心和 Azure 服务总线之间是否有任何根本区别? 对我来说,事件和消息之间没有真正的区别,因为两者只是不同类
我有一个通过虚拟网络网关连接到 Azure 虚拟网络的 Windows VPN 客户端。目标#1 是使用其内部 IP 地址连接到我的虚拟机。这有效。 第二个目标是使用其内部计算机名称进行连接(因为 I
我是一名优秀的程序员,十分优秀!