python - 在 Snakemake 工作流程中作为输入的值数组-6ren

python - 在 Snakemake 工作流程中作为输入的值数组

转载作者：行者123 更新时间：2023-12-05 09:28:44

25

4

我开始将我的工作流程从 Nextflow 迁移到 Snakemake 并且在我的管道开始时已经碰壁了，这些管道通常以数字列表(代表来 self 们检测器的“运行编号”)。

例如，我有一个 run-list.txt 就像

# detector_id run_number
75 63433
75 67325
42 57584
42 57899
42 58998

然后需要将其逐行传递给查询数据库或数据存储系统并将文件检索到本地系统的进程。

这意味着例如75 63433 将通过接收 detector_id=75 和 run_number=63433 的规则生成输出 RUN_00000075_00063433.h5 作为输入参数。

使用 Nextflow 这相当容易，只需定义一个进程来发出这些值的元组。

我不太明白如何在 Snakemake 中做这样的事情，因为输入和输出似乎总是需要文件(远程或本地)。事实上，有些文件确实可以通过 iRODS 和/或 XRootD 访问，但即便如此，我也需要先从运行选择开始，它在列表中定义，如 run-list.txt以上。

我现在的问题是:解决这个问题的 Snakemake 风格方法是什么？

无法工作的伪代码将是:

rule:
    input:
        [line for line in open("run-list.txt").readlines()]
    output:
        "{detector_id}_{run_number}.h5"
    shell:
        "detector_id, run_number = line.split()"
        "touch "{detector_id}_{run_number}.h5""

最佳答案

在 Snakemake 中，您将使用此文件生成要输入工作流程的值列表。您将在规则之外解析检测器 ID 和运行编号。在我的脑海中，如果您想使用外部库，您的运行列表看起来可以用 pandas 巧妙地处理。

import pandas as pd

run_list = pd.read_csv("run-list.txt", header=0, names=["detector_id", "run_number"], sep=" ")
detector_ids = list(run_list["detector_id"])
run_numbers = list(run_list["run_number"])

然后，在假设您的文件名不需要需要用零填充的情况下，运行您想要获取一个文件的规则是:

rule do_something:
    output: "{detector_id}_{run_number}.h5"
    shell: "do_something_with {wildcards.detector_id} {wildcards.run_number}"

仅凭这条规则，detector_id 和 run_number 理论上可以是任何东西，所以你需要一些东西来告诉 Snakemake 以产生输出你想要的。要为文件中的所有行运行此命令，您需要设置一个规则，将文件定义的所有潜在输出作为输入。

rule run_all:
    input: expand("{detector_id}_{run_number}.h5", zip, detector_id=detector_ids, run_number=run_numbers)

使用 zip 部分确保第一个检测器 ID 与第一个运行编号一致，依此类推。

最后，您将运行它并指定要运行的规则的名称，因此 snakemake run_all。

关于python - 在 Snakemake 工作流程中作为输入的值数组，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/71142612/

25

4

0

文章推荐： android - 线圈图像缓存

文章推荐： python - Pandas 高效过滤 : Same filter condition on multiple columns

文章推荐： azure - DevOps 注册脚本错误 : Current() ). IsInRole(...)

snakemake - 如何在 snakemake 中将变量值作为输入传递？
我想使用 Snakemake 使用 SRR ID 从 SRA 数据库下载 fastq 文件。我读取了一个文件以使用 python 代码获取 SRR ID。我想一个一个解析Variable作为输入。我
snakemake - 在 snakemake 运行期间动态减少输入文件集
这更多是关于 snakemake 功能的技术问题。我想知道是否可以在 snakemake 运行期间动态更改输入样本集。我想这样做的原因如下:让我们假设一组样本相关的 bam 文件。第一条规则确定每个
snakemake - 根据提供给 snakemake 管道的参数有条件地执行一个或另一个规则
我正在创建一个 snakemake 管道，在某些时候，我可以在其中过滤我的结果。但是我可以应用两种过滤器，所以我想在启动管道时将其作为参数提供，然后根据参数，我想应用一个或另一个规则。举个例子: s
snakemake - Snakemake 文件中存在多个 "params"
我有以下 Snakemake 文件: rule test: params: a = "a" shell: "echo {params.a}" 按预期工作
snakemake - Snakemake 文件中存在多个 "params"
我有以下 Snakemake 文件: rule test: params: a = "a" shell: "echo {params.a}" 按预期工作
snakemake - 理解和克服 snakemake 中的 AmbiguousRuleException
我有一个复杂的工作流程，我逐渐扩展了它。最后一个扩展导致 AmbiguousRuleException。我试图在以下示例中重现工作流的关键结构: NUMBERS = ["1", "2"] LETTER
snakemake - 当文件数量已知时，如何在 snakemake 中实现文件拆分
上下文规则 A 在 shell 指令中使用 split 命令。rule A 生成的文件数量取决于用户在配置中指定的值，因此是已知的。在this question存在差异，因为输出文件的数量未知，但
snakemake - 尝试为工作流 [Snakemake] 创建目录时出现 ChildIOException
我正在尝试创建一种简单的方法来在一个规则中创建工作流所需的所有子目录。但是，每当我尝试执行在工作流顶部创建所有必需目录的规则时，我都会收到 ChildIOException ，这对我来说毫无意义: B
snakemake - Snakemake 中不同(已知)的输出数量
我有一个 Snakemake 规则，适用于数据存档并本质上解压其中的数据。文件包含我在规则开始之前知道的不同数量的文件，因此我想利用它并执行类似的操作 rule unpack: input:
snakemake - 从 snakemake 记录执行的 shell 命令
我想将每个 snakemake 作业执行的 shell 命令保存到日志文件中。使用 --printshellcmds 我可以在提交时将 shell 命令打印到标准输出，但我想将它们保存到单独的文件中
snakemake - 使用 snakemake 打印简化的 DAG 图
我有一个很长的蛇形工作流程，处理 9 个具有许多并行规则的样本。当我为 DAG 创建图片时: snakemake --forceall --dag | dot -Tpdf > dag.pdf 生成的
python - snakemake 集群脚本 ImportError snakemake.utils
我有一个奇怪的问题，它来来去去，我真的不知道什么时候以及为什么。我正在运行这样的蛇形管道: conda activate $myEnv snakemake -s $snakefile --co
snakemake - 如何访问 `shell` 部分内的 Snakemake 配置变量？
在snakemake 中，我想从config 访问 key 。从内部shell:指示。我可以用 {input.foo} , {output.bar} , 和 {params.baz} ，但是 {con
snakemake - snakemake 中的 ambiguousruleexception，两个分支的 parms 崩溃
在我的第一次运行中，我有两类样本要由不同的参数处理，然后在第二次运行中将它们合并在一起。像下面的例子: SAMPLES = ['1', '2', '3'] CLASS1 = ['1', '2'] CL
snakemake - 在 AWS Batch 中使用 Snakemake 工作流程
我想问 Snakemake 社区是否有人在 AWS Batch 中成功实现了 Snakemake 工作流程。 2018 年 10 月最近发布的第 4 页似乎表明 Snakemake 在 AWS 上不起
python - Snakemake 使用脚本进行 shell I/O 重定向和访问 Snakemake 变量
问题很简单: 我想从规则调用脚本，并且我希望该规则同时适用于: 执行 stdout 和 stderr 重定向从脚本中访问snakemake变量(变量可以是列表和文字) 如果我使用 shell:，那么
snakemake - 如何忽略 Snakemake 的 "params have changed since last execution"？
由于 conda 环境未处于事件状态，工作流的一些非常晚的作业崩溃了。现在，当我尝试使用 snakemake deploy_all --ignore-incomplete 重新运行时，所有作业都直接
docker - Snakemake 奇点与本地资源/关于 Snakemake 与 --use-singularity 的问题
我开始尝试在 Snakemake 中使用容器，我有一个问题，什么需要预先构建到容器中，什么不需要。例如: 我想在一个容器中运行一个 python 脚本(例如，存储在 workflow_root/scr
snakemake - 处理snakemake中的SIGPIPE错误
以下蛇形脚本: rule all: input: 'test.done' rule pipe: output: 'test.done' shell:
snakemake:有没有办法为每个规则指定一个输出目录？
我使用的所有脚本都将输出文件放在调用脚本的当前目录中，因此在我的 shell 脚本管道中，我会让 cd 命令转到特定目录以运行命令，而输出文件将仅保存在相关目录中。我的脚本没有输出目录的参数，大多数脚

首页

博学

6Ren·AI

商城

python - 在 Snakemake 工作流程中作为输入的值数组