gpt4 book ai didi

c++ - 客户端机器心跳丢失

转载 作者:太空宇宙 更新时间:2023-11-04 04:14:25 25 4
gpt4 key购买 nike

我的应用程序启动了数百个发送到 SGE 的子进程。它们中很少有会占用大量内存,从而导致作业失败。我需要某种方法来监控主进程中客户端的内存使用情况,并在发生此类作业失败时重新启动/重新提交到具有更高内存要求的网格。我听说过一些关于缺少心跳算法以满足此类要求的消息,但我不太了解它们。这里的专家可以帮我找到解决这个问题的好方法吗?我的应用程序是 Linux/Solaris 上的 C++ 应用程序。

谢谢鲁奇

最佳答案

我之前使用过的一个解决方案是使用一个脚本来捕获 qstat 的输出。 -命令(在我的例子中使用 rsh)。我过滤我的工作并将我需要的信息(在我的例子中是 CPU)存储在一个不断更新的列表中。当作业中止或被终止时,很容易返回并查看 CPU 使用情况。它不是 100% 实时,但对我来说已经足够好了。

我选择的语言是 Python,因为它包含易于使用的库,用于捕获输出和登录远程计算机。然而,在 C++ 中实现捕获 rsh-output 之类的东西应该很容易。例如,您可以使用 popen()将输出通过管道传输到您的应用程序中。我希望这会有所帮助。

关于c++ - 客户端机器心跳丢失,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/17335665/

25 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com