gpt4 book ai didi

python - 将 MPI 与 TensorFlow 结合使用的影响

转载 作者:太空狗 更新时间:2023-10-29 21:45:15 24 4
gpt4 key购买 nike

我有 HPC 背景,我才刚刚开始学习一般的机器学习,尤其是 TensorFlow。我最初惊讶地发现分布式 TensorFlow 被设计为默认与 TCP/IP 通信,但事后看来,考虑到谷歌是什么以及它最常用的硬件类型,这是有道理的。

我有兴趣在集群上以与 MPI 并行的方式试验 TensorFlow。在我看来,这应该是有利的,因为 MPI 在没有共享内存的情况下跨机器使用远程直接内存访问 (RDMA),因此延迟应该低得多。

所以我的问题是,鉴于 TensorFlow 和机器学习的日益普及,为什么这种方法似乎没有更普遍?延迟不是瓶颈吗?是否有一些典型的问题已经解决,使得这种解决方案不切实际?以并行方式调用 TensorFlow 函数与在 TensorFlow 库内部实现 MPI 调用之间可能存在任何有意义的差异吗?

谢谢

最佳答案

似乎 tensorflow 已经支持 MPI,如 https://github.com/tensorflow/tensorflow/tree/master/tensorflow/contrib/mpi 所述MPI 对 tensorflow 的支持也在 https://arxiv.org/abs/1603.02339 中进行了讨论。

一般来说,请记住 MPI 最擅长发送/接收消息,但不擅长发送通知和根据事件采取行动。最后但并非最不重要的一点是,MPI 对多线程应用程序的支持(例如 MPI_THREAD_MULTIPLE)在 MPI 实现中并不总是准备就绪。这是两个一般性陈述,老实说,我不知道它们是否与 tensorflow 相关。

关于python - 将 MPI 与 TensorFlow 结合使用的影响,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/46282671/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com