Python jug(或其他)用于集群环境中具有异构任务的令人尴尬的并行作业-6ren

Python jug(或其他)用于集群环境中具有异构任务的令人尴尬的并行作业

转载作者：行者123 更新时间：2023-11-28 16:47:09

25

4

我通常有大量的依赖作业，并希望在 PBS 集群环境中有效地运行它们。我一直在使用 Ruffus 并且对它非常满意，但我也想尝试一下其他方法。

在 python 中看起来很有趣的一个是 jug。但是，jug 似乎假设这些工作的要求是同质的。我有一些工作需要 8GB RAM，而其他工作只需要 100MB；有些可以消耗所有处理器，有些是单线程的。我的目标是能够快速组装一个管道，运行它并根据依赖关系“更新”它，并合理地记录，以便我可以看到哪些作业仍然需要运行。是否有人在使用 jug 或其他类似系统来满足这些类型的要求？

最佳答案

这里是 jug 的作者。

Jug 确实很好地处理了依赖关系。如果您更改任何输入或中间步骤，运行 jug status 将告诉您计算的状态。

目前没有办法指定某些任务(jug 称为作业)应该分配多个进程。过去，每当我有要在多线程中运行的任务时，我都被迫采取最坏情况的方法并将所有进程分配给 jug execute 进程。

这当然意味着单线程任务将占用所有进程。由于大部分计算发生在多线程任务中，因此可以接受。

关于Python jug(或其他)用于集群环境中具有异构任务的令人尴尬的并行作业，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/12750787/

25

4

0

文章推荐： python - 如何在 Python 2.7 中动态构造函数的内容？

文章推荐： javascript - 如何根据子表样式可见性隐藏父表

文章推荐： python - 使用 urllib 检索所有 header 数据

文章推荐： javascript - 如果没有箭头功能，DOM 事件将无法工作

objective-c - 异构 NSTreeController
我有一个 NSTreeController (向 NSOutlineView 提供内容)。我希望顶级对象属于一个类，而所有其他对象(因此，任何级别的子对象)属于另一个类。解决这个问题的最佳方法是什么？
haskell - 异构 GADT 列表
我有一个如下所示的 GADT data MyTypes = MyInt | MyDouble data Test (t :: MyTypes) where A :: Int -
python - 异构 numpy 数组上的数组操作
我需要一个高效的异构数组，其中第一个元素是 int，其余是 float。然而，创建它之后，基本的数组操作就会呈爆炸式增长。 A = np.zeros(1, dtype='i4, f4, f4') B
python - 异构 DataFrame 上的 StratifiedKfold
我有一个 pandas DataFrame，其中包含需要拆分成平衡切片的字符串和浮点列，以便训练 sklearn 管道。理想情况下，我会使用 StratifiedKFold在 DataFrame 上
异构 POD 类型的 C++ 容器
是否有一种异构容器的形式，能够存储例如不同的基本类型(例如int、float、double)? 最终我希望能够在计算中使用元素而无需显式引用类型，例如 auto res = a + b，其中操作数 a
c++ - 一组(异构) vector 的 Push_back 实现
假设我有一个结构(或类)，如下所示: struct _particle { std::vector vx , vy; std::vector id; std::vector rx, ry; }; ty
scala - Slick 2.10-RC1，Scala 2.11.x，使用 case 类绕过 22 arity 限制(异构)
我在将具有 > 22 列的表专门映射到 case class 时遇到问题，假设您有以下代码 import slick.driver.PostgresDriver import scala.slick.

首页

博学

6Ren·AI

商城

Python jug(或其他)用于集群环境中具有异构任务的令人尴尬的并行作业