gpt4 book ai didi

ipython-parallel - ipcluster - 不能启动超过 110 个 ipengines - 或者可能其中一些死了

转载 作者:行者123 更新时间:2023-12-02 03:34:45 26 4
gpt4 key购买 nike

我很难让 ipcluster 启动我要求的所有 ipengine。这似乎是某种超时问题。我在具有 192 个处理器的 linux 集群上使用 IPython 2.0。我运行本地 ipcontroller,并使用 SSH 在我的 12 个节点上启动 ipengines。这不是配置问题(至少我不认为是),因为我在运行 110 个 ipengines 时没有问题。当我尝试更大的数量时,其中一些似乎在启动过程中死亡,我的意思是其中一些 - 我的最终数字略有不同。 ipcluster 报告所有引擎都已启动。我能找到的唯一麻烦迹象(除了没有使用所有请求的引擎之外)是一些 ipengine 日志中的以下内容:

2014-06-20 16:42:13.302 [IPEngineApp] Loading url_file u'.ipython/profile_ssh/security/ipcontroller-engine.json'
2014-06-20 16:42:13.335 [IPEngineApp] Registering with controller at tcp://10.1.0.253:55576
2014-06-20 16:42:13.429 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms.
2014-06-20 16:42:13.434 [IPEngineApp] Using existing profile dir: u'.ipython/profile_ssh'
2014-06-20 16:42:13.436 [IPEngineApp] Completed registration with id 49
2014-06-20 16:42:25.472 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 18:09:12.782 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 19:14:22.760 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).
2014-06-20 20:00:34.969 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row).

我做了一些谷歌搜索,看看我是否能找到一些智慧,我唯一遇到的是 http://permalink.gmane.org/gmane.comp.python.ipython.devel/12228 .作者似乎认为这是某种超时。

我还尝试将 IPClusterStart.early_shutdown 和 IPClusterEngines.early_shutdown 时间增加三倍(90 秒,而不是默认的 30 秒),但没有任何运气。

提前感谢您提供有关充分利用我的集群的任何指示。

最佳答案

当我尝试执行 ipcluster start --n=200 时,我得到:OSError: [Errno 24] 打开的文件太多
这也可能发生在你身上。尝试提高操作系统的打开文件限制。

关于ipython-parallel - ipcluster - 不能启动超过 110 个 ipengines - 或者可能其中一些死了,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/24367832/

26 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com