gpt4 book ai didi

python - Sun Grid Engine,强制每个节点一个作业

转载 作者:太空宇宙 更新时间:2023-11-04 10:15:26 24 4
gpt4 key购买 nike

我在使用 Sun Grid Engine 分发作业的集群 (starcluster) 上使用 numpy 重复运行同一个作业。我的每个节点都有 2 个核心(AWS 上的 c3.large)。假设我有 5 个节点,每个节点有 2 个核心。

numpy 中的矩阵运算可以一次使用多个内核。我发现 SGE 将同时发送 10 个作业运行,每个作业使用一个核心。这会导致作业运行时间更长。查看 htop,似乎每个核心上的两个作业都在争夺资源。

如何告诉 qsub 为每个节点分配 1 个作业。这样当我提交作业时,一次只会运行 5 个,而不是 10 个?

最佳答案

第 1 步:将复数值添加到您的集群。运行

qconf -mc

添加一行

exclusive        excl      INT         <=    YES         YES        0        0

第 2 步:对于每个节点,为该复值定义一个值。

qconf -rattr exechost complex_values exclusive=1 <nodename>

这里我们将独占设置为 1。然后,当您启 Action 业时,请求该资源的“1”。例如:

qrsh -l exclusive=1 <myjob>

如果您愿意每个节点有 2 个作业,您可以在第 2 步将该值定义为 2。

编辑:这是为每个节点配置它的方法。您可以在步骤 1 中通过将“默认”列中的值设置为 1 来为整个集群完成此操作。

关于python - Sun Grid Engine,强制每个节点一个作业,我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35656186/

24 4 0
Copyright 2021 - 2024 cfsdn All Rights Reserved 蜀ICP备2022000587号
广告合作:1813099741@qq.com 6ren.com