gpt4 book ai didi

linux - infiniband rdma 传输带宽差

转载 作者:IT王子 更新时间:2023-10-29 01:27:30 24 4
gpt4 key购买 nike

在我的应用程序中,我使用无限带宽基础设施将数据流从一台服务器发送到另一台服务器。我习惯于通过 infiniband 轻松开发 ip,因为我更熟悉套接字编程。到目前为止,性能(最大带宽)对我来说已经足够好了(我知道我没有获得可实现的最大带宽),现在我需要从无限带宽连接中获得更多带宽。

ib_write_bw 声称我的最大可实现带宽约为 1500 MB/s(我没有获得 3000MB/s,因为我的卡安装在 PCI 2.0 8x 中)。

到目前为止一切顺利。我使用 ibverbs 和 rdma 对我的通信 channel 进行了编码,但我获得的带宽远远低于我可以获得的带宽,我什至获得的带宽比使用套接字要少一些,但至少我的应用程序不使用任何 CPU 能力:

ib_write_bw:1500 MB/s

套接字:700 MB/s <= 在此测试期间,我系统的一个核心处于 100%

ibvers+rdma:600 MB/s <= 在此测试期间根本没有使用 CPU

看来瓶颈就在这里:

ibv_sge sge;
sge.addr = (uintptr_t)memory_to_transfer;
sge.length = memory_to_transfer_size;
sge.lkey = memory_to_transfer_mr->lkey;

ibv_send_wr wr;
memset(&wr, 0, sizeof(wr));
wr.wr_id = 0;
wr.opcode = IBV_WR_RDMA_WRITE;
wr.sg_list = &sge;
wr.num_sge = 1;
wr.send_flags = IBV_SEND_SIGNALED;
wr.wr.rdma.remote_addr = (uintptr_t)thePeerMemoryRegion.addr;
wr.wr.rdma.rkey = thePeerMemoryRegion.rkey;

ibv_send_wr *bad_wr = NULL;
if (ibv_post_send(theCommunicationIdentifier->qp, &wr, &bad_wr) != 0) {
notifyError("Unable to ibv post receive");
}

此时等待完成的下一段代码是:

//Wait for completation
ibv_cq *cq;
void* cq_context;
if (ibv_get_cq_event(theCompletionEventChannel, &cq, &cq_context) != 0) {
notifyError("Unable to get a ibv cq event");
}

ibv_ack_cq_events(cq, 1);

if (ibv_req_notify_cq(cq, 0) != 0) {
notifyError("Unable to get a req notify");
}

ibv_wc wc;
int myRet = ibv_poll_cq(cq, 1, &wc);
if (myRet > 1) {
LOG(WARNING) << "Got more than a single ibv_wc, expecting one";
}

从我的 ibv_post_send 到 ibv_get_cq_event 返回一个事件的时间是 13.3 毫秒,当传输 8 MB 的 block 时达到大约 600 MB/s。

要指定更多(在伪代码中我在全局范围内所做的):

主动方:

post a message receive
rdma connection
wait for rdma connection event
<<at this point transfer tx flow starts>>
start:
register memory containing bytes to transfer
wait remote memory region addr/key ( I wait for a ibv_wc)
send data with ibv_post_send
post a message receive
wait for ibv_post_send event ( I wait for a ibv_wc) (this lasts 13.3 ms)
send message "DONE"
unregister memory
goto start

被动端:

post a message receive
rdma accept
wait for rdma connection event
<<at this point transfer rx flow starts>>
start:
register memory that has to receive the bytes
send addr/key of memory registered
wait "DONE" message
unregister memory
post a message receive
goto start

有谁知道我做错了什么?或者我可以改进什么?我没有受到“这里没有发明”综合症的影响,所以我什至愿意放弃我到目前为止所做的事情并采用其他东西。我只需要一个点对点的连续传输。

最佳答案

根据您的伪代码,您似乎为每次传输注册和注销了一个内存区域。我认为这可能是事情变慢的主要原因:内存注册是一项非常昂贵的操作,因此您希望尽可能少地执行它并尽可能多地重用您的内存区域。所有花在注册内存上的时间都是您不花在传输数据上的时间。

这指出了您的伪代码的第二个问题:您正在同步等待完成,并且在前一个完成之前不会发布另一个工作请求。这意味着在从工作请求完成到您完成并发布另一个请求的这段时间内,HCA 处于空闲状态。您最好保持多个发送/接收工作请求在进行中,这样当 HCA 完成一个工作请求时,它可以立即转移到下一个。

关于linux - infiniband rdma 传输带宽差,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/12100970/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com