gpt4 book ai didi

azure - 支持 Azure RDMA 的 SLES 群集上的 DAPL 错误

转载 作者:行者123 更新时间:2023-12-03 01:09:35 25 4
gpt4 key购买 nike

我在运行 SLES-HPC 12 的可用性集中设置了 2 个 Azure A8 VM(遵循此处的教程:https://azure.microsoft.com/en-us/documentation/articles/virtual-machines-linux-cluster-rdma/)。

当我运行英特尔 MPI pingpong 测试时,出现 DAPL 错误:

azureUser@sshvm0:~> /opt/intel/impi/5.0.3.048/bin64/mpirun -hosts 10.0.0.4,10.0.0.5 -ppn 1 -n 2 -env I_MPI_FABRICS=shm:dapl -env I_MPI_DYNAMIC_CONNECTION=0 -env I_MPI_DAPL_PROVIDER=ofa-v2-ib0 /opt/intel/impi/5.0.3.048/bin64/IMB-MPI1 pingpong
sshvm1:d28:bef0eb40: 12930 us(12930 us): dapl_rdma_accept: ERR -1 Input/output error
sshvm1:d28:bef0eb40: 12946 us(16 us): DAPL ERR accept Input/output error
[1:10.0.0.5][../../src/mpid/ch3/channels/nemesis/netmod/dapl/dapl_conn_rc.c:622] error(0x40000): ofa-v2-ib0: could not accept DAPL connection request: DAT_INTERNAL_ERROR()
Assertion failed in file ../../src/mpid/ch3/channels/nemesis/netmod/dapl/dapl_conn_rc.c at line 622: 0
internal ABORT - process 0

运行 OSU MPI 微基准测试之一(使用 impi 编译器编译)时出现类似错误:

azureUser@sshvm0:~> /opt/intel/impi/5.0.3.048/bin64/mpirun -hosts 10.0.0.4,10.0.0.5 -ppn 1 -n 2 -env I_MPI_FABRICS=shm:dapl -env I_MPI_DYNAMIC_CONNECTION=0 -env I_MPI_DAPL_PROVIDER=ofa-v2-ib0 /opt/intel/impi/5.0.3.048/bin64/IMB-MPI1 pingpong
sshvm1:d28:bef0eb40: 12930 us(12930 us): dapl_rdma_accept: ERR -1 Input/output error
sshvm1:d28:bef0eb40: 12946 us(16 us): DAPL ERR accept Input/output error
[1:10.0.0.5][../../src/mpid/ch3/channels/nemesis/netmod/dapl/dapl_conn_rc.c:622] error(0x40000): ofa-v2-ib0: could not accept DAPL connection request: DAT_INTERNAL_ERROR()
Assertion failed in file ../../src/mpid/ch3/channels/nemesis/netmod/dapl/dapl_conn_rc.c at line 622: 0
internal ABORT - process 0

造成这些错误的原因是什么?如何修复和运行这些微基准测试?感谢您的帮助!

我还通过运行“mpiexec -machinefile machinefile -n 2 hostname”验证了 2 个节点之间的 SSH 连接

最佳答案

您将需要更新 RDMA 驱动程序。我们已经更新了文档,请点击下面的链接 https://azure.microsoft.com/en-us/documentation/articles/virtual-machines-linux-cluster-rdma/

请转至该部分更新 SLES 12 的 Linux RDMA 驱动程序

请按照说明操作并更新 RDMA 驱动程序。仅当您在以下区域之一配置了虚拟机时,才请更新驱动程序美国东部美国中北部美国中南部北欧

关于azure - 支持 Azure RDMA 的 SLES 群集上的 DAPL 错误,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/34822382/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com