- html - 出于某种原因,IE8 对我的 Sass 文件中继承的 html5 CSS 不友好?
- JMeter 在响应断言中使用 span 标签的问题
- html - 在 :hover and :active? 上具有不同效果的 CSS 动画
- html - 相对于居中的 html 内容固定的 CSS 重复背景?
我问了同样的问题here ,但我觉得它太长了,所以我会用更短的方式再试一次:
我在主/从设置下的 Rocks 集群上有一个使用最新 OpenMPI 的 C++ 程序。从站执行任务,然后使用阻塞 MPI_SEND/MPI_RECV 调用(通过 Boost MPI)向主站报告数据,主站将数据写入数据库。主人目前明显比奴隶慢。我的程序有问题,因为大约一半的奴隶卡在第一个任务上,从不报告他们的数据;使用 strace/ltrace,他们似乎卡在 MPI_SEND 中进行轮询,并且永远不会收到他们的消息。
我写了一个程序来测试这个理论(同样,完整列出 here )我可能会导致类似的问题 - 从属通信显着减慢,所以他们做的任务比他们应该做的少 - 通过操纵从属的速度和主人使用 sleep 。当 speed(master) > speed(slaves) 时,一切正常。当 speed(master) < speed(slaves) 时,消息每次都会对某些从属设备显着延迟。
知道为什么会这样吗?
最佳答案
据我所知,这是主节点 while 循环中 recv 的结果。
...
while (1) {
// Receive results from slave.
stat = world.recv(MPI_ANY_SOURCE,MPI_ANY_TAG);
...
当有来自一个从节点的消息时,主节点在 while 循环内的代码完成之前无法收到任何消息(这需要一些时间,因为存在 sleep ),因为主节点没有并行运行。因此,在第一个从站完成发送消息之前,所有其他从站都不能开始发送他们的消息。然后下一个从站可以开始发送消息,但随后所有其他从站都将停止,直到执行 while 循环内的代码。
这会导致您看到的行为,即从站通信非常慢。为避免此问题,您需要实现点对点通信非阻塞或使用全局通信。
更新 1:
让我们假设主人分发了他的数据。现在他等到奴隶们返回。当第一个从机返返回告时,他将首先发送他的 REPORTAG,然后是他的 DONETAG。
currentTask < numtasks
现在奴隶们又开始了他的计算。现在的情况可能是,在他完成之前,主人只能处理另一个奴隶。因此,开始的奴隶现在再次首先发送他的 REPORTAG,然后发送他的 DONETAG,并获得一份新工作。当这种情况持续下去时,最终只有 2 个奴隶找到了新工作,其余的则无法完成他们的工作。所以在某些时候这是真的:
currentTask >= numtasks
现在你停止了所有的工作,即使不是所有的奴隶都报告了他们的数据并且完成了不止一项任务。
当不同节点的网络连接差异很大时,最容易出现此问题。原因是发送和接收在它们的调用之后没有被处理,相反,如果这些函数中的两个能够进行某种握手,通信就会发生。
作为解决方案,我建议:
希望这对您有所帮助。
关于c++ - MPI 是否丢弃或延迟消息?,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/7829921/
(>>)的定义功能如下:(>>) :: Monad m => m a -> m b -> m b但我想实现这个功能翻转如下: 我有一个函数tabulate :: Int -> [Int] -> IO
我在新线程中创建一个新的托管对象上下文,并向其中插入一些对象。我可以通过不保存上下文来丢弃(忘记它们)它们吗?我的问题是这样的:我开始一个漫长的过程,在开始时创建一些 NSManagedObjects
关闭。这个问题是opinion-based .它目前不接受答案。 想改善这个问题吗?更新问题,以便可以通过 editing this post 用事实和引文回答问题. 3年前关闭。 Improve t
虽然建议打开编译器标志,如 -Wvalue-discard或 -Wunused:implicits通过使用 sbt-tpolecat 显式或隐式地. 有时您需要解决这些问题,但要以一种明确的方式;因为
在 R 中,na.omit()函数可用于丢弃包含 NA 值的 data.frame 中的条目。作为副作用,如果确实丢弃了行,则该函数会向结果添加一个属性 'omit',其中包含被丢弃的 row.nam
使用 geom_blank我想添加一些新的因子水平,但我似乎无法这样做并保留 NA水平 library('ggplot2') pl <- ggplot(data.frame(x = factor(c(
谁能告诉我两者之间是否有什么区别 DROP IF EXISTS [TABLE_NAME] DROP [TABLE_NAME] 我问这个问题是因为我在 MVC Web 应用程序中使用 JDBC 模板。如
例如,我有以下表达式映射: function! DelNthSpace() let col=match(getline('.'), '[[:blank:] ]', col('.'
默认情况下,Chrome 会丢弃后台未使用的选项卡以节省内存。 我想知道是否有一种方法可以让我现在可以在我的网站被 Chrome 丢弃的情况下 - 这样我就可以告诉我的用户,下次他们进入时,如何避免这
我的数据库中有一个元素列表,每个元素都有自己的日期时间字段。我想丢弃比今天更旧的元素,这意味着我只会看到 future 的元素。 这是我当前的代码: def get_dates_approved(re
我为我的 linux 机器编写了一个 C++ 工具,它接收 UDP (OSC) 数据包并立即将它们发回(这是它唯一做的事情)。但似乎有一些丢弃的数据包。当我向我的 linux(从另一台机器)发送 10
在创建 cron 作业时,我总是这样写: 15 0 * * * /somepath/somescript.pl > /dev/null 2>&1 关于末尾“>/dev/null 2>&1”丢弃所有st
我已经四处寻找有关此问题的指示,但找不到任何指示。假设我有一个 Python 列表: list = set([((3, 2), (2, 1)), ((3, 2), (3, 1)
我正在介绍 C,我需要编写一个程序来提示用户输入字符、等号和整数。我需要使用 getchar() 直到 '=' 然后使用 scanf() 获取整数。然后程序应该只输出整数返回给用户。 现在它打印出不必
如何忽略数据框中随机分布在数据框中的空单元格?这是我的例子 ColA ColB ColC ColD ColF ColG ColH A
我无法在网上找到我的问题的单一答案... 我正在为我的投资组合构思一个网站创意,并决定涉足一些 jQuery 让它更令人兴奋。我正确链接了 jQuery 并且工作,但是当我使用 .toggle 方法时
据我了解,在 Linux 中创建虚拟驱动器的过程是这样的 fallocate -l size /path/to/file.img; dd if=/dev/zero of=/path/tofile.im
大多数时候,我都是这样做的。 class a { public: ~ a() { i = 100; // OK delete (int *)j
下面的代码编译。它似乎运行良好。 但是它会导致任何未定义的行为吗? 我想抛弃 *this 的常量。 这是为了允许 const my_iterator 改变它指向的数据。 测试: class A { p
这个问题在这里已经有了答案: 关闭 10 年前。 Possible Duplicate: Is const_cast safe? 显然我永远不会写这段代码,但它是真实程序中出现的一个非常简单的例子。
我是一名优秀的程序员,十分优秀!