MPI_Send/Recv 与 MPI

MPI_Send/Recv 与 MPI_Reduce

转载作者：行者123 更新时间：2023-12-01 12:45:00

35

4

我得到了一个小练习，我必须通过使用 MPI 来估计 n 个球体的总体积来实现蒙特卡罗算法，这些球体的中心坐标和半径在 3 维中。即使我们必须使用 MPI，我们也可以在本地机器上启动所有进程，因此没有网络开销。我实现了这个练习的两个版本:

一，使用 MPI_Send 和 MPI_Recv(其中排名 0 的进程只等待其他进程的部分结果来执行最终求和) http://pastebin.com/AV41hJqn

另一个，使用 MPI_Reduce，这里也是 0 级进程等待部分结果。 http://pastebin.com/8b0czv6a

我预计这两个程序将花费相同的时间完成，但我发现使用 MPI_Reduce 的程序更快。为什么这个？哪里不一样了？

最佳答案

可能有很多原因，具体取决于您使用的 MPI 实现、运行的硬件类型以及实现的优化程度以利用它。 This Google Scholar search给出了在这方面所做的各种工作的一些想法。给你一些关于它可能是什么的想法:

由于缩减可以在中间步骤中完成，因此可以使用 different topology与基本的 rank 0 collect-from-all 方法不同，在延迟和带宽方面进行了权衡。
在一个计算节点内(或者在您的台式机或笔记本电脑上，如果您尝试解决玩具问题)，可以利用内核中的局部性、CPU 插槽上的内核之间或插槽之间的局部性来对计算进行排序和以一种对硬件更有效的方式进行通信。听起来像是this paper from IBM的摘要可能会给出一些关于这些设计决策的具体细节。或者，该实现可能会选择缓存不经意的方案，以便在通用计算节点内获得更好的性能。
可以在 MPI_Reduce 实现中使用持久通信(MPI_Send_init 和 MPI_Recv_init)。这些例程可以perform better than their blocking and non-blocking counterparts由于向 MPI 实现和硬件提供了有关程序如何对其通信进行分组的额外详细信息。

这不是一个完整的列表，但希望它能帮助您入门，并提供一些想法，让您了解如何在有兴趣的情况下搜索更多详细信息。

关于MPI_Send/Recv 与 MPI_Reduce，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/20975196/

35

4

0

文章推荐： java - 使两个 BufferedImage 重叠且透明

文章推荐： sql - 收到 "DataReader.GetFieldType returned null."错误。

文章推荐： multithreading - 你如何在线程 perl 中共享数组？

c++ - OpenMPI MPI_Send 与 Intel MPI MPI_Send
我有一个使用 openmpi 编译和运行的代码。最近，我想使用 Intel MPI 运行同样的代码。但是我的代码没有按预期工作。我深入研究了代码，发现 MPI_Send 在两个实现中的行为不同。我从
c - MPI_Send 到单变量目的地
我想将 MPI_Send 消息发送到单个但可变的主机。我的意思是，我在编译时不知道要发送消息的主机的级别。很自然地，我写的内容如下: MPI_Send(&myIntData, 1, MPI_INT,
c++ - 发送矩阵的行和列，MPI_SEND
我可以在单个 MPI_SEND 中发送一个矩阵的行和另一个矩阵的列，我该如何执行此过程？ MPI_SEND (row and column of the matrix ...) 最佳答案由于 C/C
c++ - MPI_Send 双指针
我有以下代码: double * myX; double * myY; double * myZ; int amount; int count; // number of process v
c++ - MPI_Send 错误
我正在编写 mpi 的 C++ 包装器。我在 mpi 遇到了一个奇怪的错误:在我的例子中，错误只在消息足够大时出现，运行时错误如下: Fatal error in MPI_Send: Other M
c - MPI_Send 仅适用于静态分配的缓冲区
如果我想定义自己的类型，并将其用作 MPI_Send 的数据类型以仅从矩阵中获取偶数行，是否必须静态分配该矩阵(发送缓冲区)？我动态分配的时候好像有问题。这是因为地址需要连续才能发送数据吗？最佳答
c++ - MPI_Send 发送数组地址还是数组内容
我正在使用 MPI 编写 Mergesort 来对整数数组进行排序。这个想法是在同一等级上对数组的左半部分进行归并排序，同时将数组的右半部分发送到子等级。所以如果有四个过程，它看起来像这样:
c - MPI_Send 发送矩阵的正确方法
我必须在我的程序中使用 MPI API 发送/接收矩阵。为了发送矩阵，我使用了以下语法: MPI_Send(matrix, ...) <- USE THIS MPI_Send(&matrix, ..
linux - MPI_SEND 占用很大一部分虚拟内存
在大量内核上调试我的程序时，我遇到了非常奇怪的虚拟内存不足错误。我的调查导致代码和平，主人向每个奴隶发送小消息。然后我写了一个小程序，其中 1 个主机使用 MPI_SEND 发送 10 个整数，所有从
c - MPI_Type_create_subarray 和 MPI_Send
这是我在 stackoverflow 中的第一个问题。我有两个进程，一个根 0 和一个从属 1。从属分配一个二维数组 (CHUNK_ROWS+2,CHUNK_COLUMNS+2) 并想发送一个 [CH
parallel-processing - MPI_Send 在数据量大的环形通信中阻塞
我正在尝试使用 MPI 形成环形通信，其中我的每个进程都将其结果发送到下一个进程，最后一个进程将结果发送到第 0 个进程。假设我有 4 个进程，那么我的第 0 个进程会将结果发送到第 1 个、第 1
MPI_Send/Recv 与 MPI_Reduce
我得到了一个小练习，我必须通过使用 MPI 来估计 n 个球体的总体积来实现蒙特卡罗算法，这些球体的中心坐标和半径在 3 维中。即使我们必须使用 MPI，我们也可以在本地机器上启动所有进程，因此没有网
c - 程序在 MPI_Send 处停止
当我使用超过 1 个处理器执行程序时，程序将停止工作。它在第一个 MPI_Send 处停止我做错了什么？ #include "mpi.h" #include #include #include
MPI_Gather 可以用于从使用 MPI_Send 的线程接收数据吗？
我有一个主进程和更多从进程。我希望每个从进程向主进程发送一个整数，所以我想我应该使用 MPI_Gather 收集它们。但不知怎的，它不起作用，我开始认为 MPI_Gather 与 MPI_Send 不
c - 使用 MPI_Send 发送矩阵的多列
我正在尝试将多列“B”矩阵从处理器 0 发送到不同的处理器。我正在尝试使用 MPI_Send 进行发送，但它不起作用。有人可以帮助我吗？例如:方阵 B 的大小为 7。这样就应该被分发了。处理器 0
c++ - mpi MPI_Send() 适用于小数据集但不适用于大数据集
最近才知道MPI_Send不能一次发送太长的数据，所以决定把数据分成几 block ，用for循环发送。下面是一个测试用例。这里的问题是，如果我使用少量数据并将其分成几 block ，程序将运行；但是
c++ - MPI_Send + struct + 动态内存分配
我正在尝试使用 MPI 在 C++ 中处理一些动态分配的多维数组。为了避免担心不连续的内存，我编写了一个类包装器，它允许我像访问二维数组一样访问一维数组。我正在尝试创建一个 MPI 数据类型以通过 M
c++ - 缓冲区大小大于 Mpi_send 中的计数
这可能是一件微不足道的事情，但是: 底层数组的大小是否可以长于在 MPI_Send( ... ) 调用中与缓冲区指针一起发送的计数参数？至于 MPI_Recv( ... )，我发现消息来源清楚地表明
c++ - 如何让 MPI_Send 让处理器按顺序发送而不是随机发送？
我正在尝试运行下面使用并行编程的程序。如果我们使用 4 个处理器，我希望它们包含总和 1+2=3、3+4=7、11 和 15。所以我希望求和 vector 按顺序包含 3、7、11 和 15。但是，由
c - 关于使用 MPI_Send 的问题
我正在学习 MPI_Send，但我对这种方法感到困惑。我写了一个简单的乒乓程序，rank-0 节点发送消息给 rank-1 节点，然后后者返回消息给前一个。 if (rank == 0) { /*

首页

博学

6Ren·AI

商城

MPI_Send/Recv 与 MPI_Reduce